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O'Reilly Media,Inc. 介 绍 


为 了 满足 读者 对 网 络 和 软件 技术 知识 的 迫切 需求 ， 世 界 著名 计算 机 
图 书 出 版 机 构 O'Reilly Media,Inc. 授 权 机 械 工 业 出 版 社 ， 翻 译 出 版 一 批 该 
公司 久负盛名 的 英文 经 典 技术 专 著 。 

O'Reilly Media,Inc. 是 世界 上 在 Unix、X、Internet 和 其 他 开放 系统 图 

;领域 具有 领导 地 位 的 出 版 公司 ， 同 时 也 是 联机 出 版 的 先锋 。 

从 最 畅销 的 The Whole Internet User,s Guide& Catalog (被 纽约 公共 图 
书馆 评 为 20 世 纪 最 重要 的 50 本 书 之 一 ) 到 GNN 《最 早 的 Internet 门 户 和 
商业 网 站 ) ， 再 到 WebSite〈 第 一 个 桌面 PC 的 Web 服 务 器 软件 〉， 
O'Reilly Media,Inc. 一 直 处 于 Internet 发 展 的 最 前 沿 。 

许多 书店 的 反馈 表明 ，O'Reilly Media,Inc. 是 最 稳定 的 计算 机 图 书 出 
版 商 一 一 每 一 本 书 都 一 版 再 版 。 与 大 多 数 计算 机 图 书 出 版 商 相 比 ， 
O'Reilly Media,Inc. 具 有 深厚 的 计算 机 专业 背景 ， 这 使 得 OReilly 
Media,Inc. 形 成 了 一 个 非常 不 同 于 其 他 出 版 商 的 出 版 方针 。O'Reilly 
Media,Inc. 所 有 的 编辑 人 员 以 前 都 是 程序 员 ， 或 者 是 顶尖 级 的 技术 专 
Xo O'Reilly Media,Inc. 还 有 许多 固定 的 作者 群体 一 一 他 们 本 吴 是 相关 领 
域 的 技术 专家 、 盗 询 专家 ， 而 现在 编写 著作 ，O'Reilly Media,Inc. 依 徘 他 
们 及 时 地 推出 图 书 。 因 为 O'Reilly Media,Inc. 紧 密 地 与 计算 机 业界 联系 
着 ， 所 以 O'Reilly Media,Inc. 知 道 市 场 上 真正 需要 什么 图 书 。 
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我 一 直 对 数据 挖掘 很 感 兴趣 ， 尤 其 是 通过 对 海量 、 抽 象 甚 至 枯燥 的 
数据 进行 挖掘 分 析 后 ， 利 用 数据 可 视 化 工具 展现 出 来 的 那 种 绚丽 多 彩 、 
富 含 意 强 的 数据 之 美 更 是 令 我 痴迷 、 了 叹为观止 。 本 书 涉及 领域 很 广 ， 各 
领域 的 精英 们 辐 我 们 娓 九 道 来 相关 领域 的 数据 信息 系统 的 架构 的 设计 ， 
包括 Yahoo! 的 云 存 储 架 构 、Deep Web 数 据 抓 取 、Facebook 的 信息 平 
台 、 目 然 语 言 处 理 、“ 凤 凰 号 ?火星 探测 需 的 图 像 数据 处 理 、 探 索 数 据 生 
命 的 DNA 漫 谈 ， 甚 至 是 Radiohead 视 频 的 制作 、 旧 金山 的 次 贷 危 机 等 。 

阅读 完 本 书 之 后 ， 我 自己 的 一 个 很 大 的 收获 是 对 于 自己 比较 了 解 的 
领域 ， 如 云 存 储 、Deep Web、NLP 等 有 了 进一步 的 理解 和 实践 指导 ， 而 
XY FABLE SEE AAAS IN GU, WR BOE a. KERMA (E 
Radiohead 视 频 等 则 更 是 开阔 了 视野 ， 不 但 对 数据 有 了 新 的 认识 ， 而 且 
激 及 了 思考 问题 的 一 些 新 的 思维 方式 。 

这 本 书 令 我 很 感怀 的 男 一 方面 是 ， 我 发 现 这 些 “ 数 据 科 学 家 ”在 殊 殊 
业 业 构建 平台 处 理 数据 的 过 程 中 ， 虽 然 遇 到 了 很 多 困难 和 挑战 ， 但 是 却 
依然 如 此 坚持 、 执 着 地 探索 数据 之 美 。 在 翻译 本 书 过 程 中 ， 这 种 激情 不 
仅 激励 着 我 完成 这 本 书 的 翻译 ， 同 时 也 激励 着 我 在 生活 、 工 作 中 要 有 煞 
力 和 恒心 。 而 纵 观 我 身边 的 阿里 巴巴 云 计 算 的 同事 们 一 一 这 些 “ 阿 里 数 
据 科学 家 * 们 ， 也 无 一 不 是 那 种 永远 充满 着 激情 致力 于 我 们 的 “飞天 ” 梦 


TH ! 
JU * 























XXE EBA PE YB ANS, IRB LH EE EA v] SEE ER BE 
康 先生 慷慨 地 引 我 入 门 ， 并 且 对 因为 我 前 段 时 期 项 目 开 发 非常 紧张 而 导 
致 翻译 进度 几乎 停 沛 的 宽容 和 理解 表示 深 深 感激 。 感 谢 所 有 其 他 为 本 书 
付出 努力 的 人 们 。 

由 于 时 间 和 精力 有 限 ， 本 书 的 玻 漏 、 错 误 之 处 在 所 难免 ， 还 望 各 位 
读者 不 音 批评 指正 。 

李 妹 方 


2010 年 6 月 26 日 
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当 我 们 第 一 次 接触 为 《代码 之 美 》 编 写 “ 续 集 ” 的 想法 时 ， 这 次 是 关 
于 数据 也 就 是 这 本 书 ， 我 们 觉得 这 个 想法 令 人 兴奋 且 很 有 挑战 性 。 现 在 
收集 、 可 视 化 和 处 理 数据 涉及 每 个 专业 领域 和 日 常生 活 的 诸多 方面 ， 一 
个 大 数据 集 在 范围 上 将 是 难以 想象 的 广泛 。 因 此 ， 我 们 联系 了 一 组 相当 
多 样 化 的 群体 ， 这 些 人 的 工作 让 我 们 钦佩 。 当 他 们 中 的 大 多 数 都 同意 所 
稿 时 ， 我 们 感到 异常 兴奋 。 

这 本 书 就 是 我 们 努力 的 结果 ， 我 们 希望 它 能 够 展示 数据 处 理工 作 可 
以 多 么 的 广泛 《和 美丽 ) 。 在 本 书 中 ， 你 将 了 解 从 和 政府 协作 到 和 火星 
登陆 器 一 起 工作 的 各 个 方面 ， 你 将 了 解 如 何 使 用 统计 程序 、 制 作 可 视 化 
应 用 、 混 合 Radiohead 视 频 ， 你 将 看 到 地 图 、DNA 和 一 些 我 们 真正 只 能 
称 之 为 “数据 哲学 ”的 内 容 。 

本 书 的 版 权 收 益 贡献 给 知识 共享 组 织 (Ceative Commons) 和 阳光 基金 
会 (te Sunlight Foundation)， 它 们 致力 于 通过 解放 数据 使 世界 变 得 更 美 
好 。 我 们 希望 你 将 会 考虑 你 和 数据 亲身 “邂逅 ”的 经 历 如 何 塑造 了 世界 。 

本 书 的 组 织 方式 

本 书 的 章节 贯彻 一 条 较为 松散 的 曲线 : 从 数据 收集 到 数据 存储 、 组 
织 、 检 索 、 可 视 化 及 最 后 的 数据 分 析 。 

第 1 章 : 在 数据 中 观察 生活 。 作 者 Nathan Yau 着 眼 于 在 新 兴 的 个 人 数 
据 收集 领域 的 两 个 项 目 背 后 的 动机 和 挑战 。 











第 2 章 : 美丽 的 人 们 : 设计 数据 收集 方法 时 牢记 用 户 。Jonathan 
Follett 和 Matthew Holm 讨 论 了 在 Web 上 向 人 们 收集 数据 时 ， 信 任 、 说 服 
和 测试 的 重要 性 。 

第 3 章 : 火星 上 的 嵌入 式 图 像 数 据 处 理 。JM.Hughes 分 析 了 设计 在 太 
空 旅行 下 能 够 正常 工作 的 数据 处 理 系统 所 面临 的 挑战 。 

第 4 章 : PNUTShell 中 的 云 存储 设计 。Brian F.Cooper. Raghu 
Ramakrishnan 和 Utkarsh Srivastava 摘 述 了 雅虎 所 设计 的 软件 系统 ， 该 系 
统 将 其 全 球 分 布 式 数据 中 心 转换 为 支持 现代 Web 应 用 的 通用 存储 平台 。 

第 5 章 : 信息 平台 和 数据 科学 家 的 兴起 。Jeff Hammerbacher 以 
Facebook 的 数据 团队 的 历史 演化 作为 特例 ， 追 滴 了 信息 处 理工 具 以 及 驱 
动 这 些 工 具 的 人 们 的 演化 。 

Bom: 照片 档案 的 地 理 之 美 。Jason Dykes 和 Jo Wood 吸 引 人 们 注意 
一 个 志愿 者 组 织 收集 的 彩色 可 视 化 空间 数据 的 普及 性 及 其 力量 。 

第 7 章 : 数据 发 现 数据 。Jeff Jonas 和 Lisa Sokol 阐 述 了 思考 数据 的 新 
方式 ， 为 了 完全 管理 这 些 数据 ， 很 多 人 需要 采用 这 种 方式 。 

第 8 章 : 实时 的 可 移动 数据 。Jud Valeski 深 入 分 析 了 Web 上 实时 的 分 
布 式 社会 和 定位 数据 当前 存在 的 局 限 ， 讨 论 了 解决 该 问题 的 一 个 可 能 方 
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第 9 章 : 探寻 Deep Web. Alon Halevy 和 Jayant Madhavan 描 述 了 G 公 司 
开发 的 用 于 搜索 当前 “ 受 困 ”于 Web 表 单 之 后 的 数据 的 工具 。 
第 10 章 : 构建 Radiohead 的 “House of Cards". Aaron Koblin 和 Valdean 





Klump 讲 述 了 一 个 涉及 激光 、 编 程 和 “ 骑 在 巴士 背 上 ”的 惊险 故事 ， 故 事 
以 一 个 获奖 音乐 视频 结束 。 

第 11 章 : 都 市 数据 可 视 化 。Michal Migurski 详 细 描 述 了 释放 和 美化 
一 些 我 们 身边 的 最 重要 的 数据 的 过 程 。 

第 12 章 : Sense.us 的 设计 。Jeffrey Heer 重 塑 了 作为 社会 空间 的 数据 可 
视 化 ， 并 使 用 这 种 新 视角 来 探索 历时 150 年 的 美国 人 口 普查 数据 。 

第 13 章 : 数据 所 做 不 到 的 。Coco Krumme 关 注 于 证 明 人 们 在 很 多 方 
面 误解 和 误 用 数据 的 实验 性 工作 。 

第 14 章 : 自然 语言 语料库 数据 。Peter Norvig 通 过 从 Web 上 获取 的 1 兆 
规模 的 自然 语言 词汇 语 料 数据 ， 带 领 读 者 走 进 一 些 令 人 回味 的 实践 。 

781538; 数据 中 的 生命 DNA 漫 谈 。Matt Wood 和 Ben Blackburne 描 
述 了 数据 之 美 ， 即 DNA 和 和 创造、 捕捉 和 人 处理 数 据 需 要 的 大 量 基础 设施 。 

第 16 章 : 美化 真实 世界 中 的 数据 。Jean-Claude Bradley、Rajarshi 








Guha, Andrew Lang. Pierre Lindenbaum. Cameron Neylon, Antony 
Williams 和 Egon Willighagen 展 示 了 “ 众 包 ”(cowdsourcing) 和 高 度 透 明 的 结 
合 如 何 提高 了 药物 发 现 的 研究 。 

第 17 章 : 数据 浅 析 : 探索 形形色色 的 社会 定型 。Brendan O'Connor 和 
Lukas Biewald 展 示 了 当 让 人 们 匿名 对 其 他 人 的 网 卢 进 行 打分 时 所 表现 出 
来 的 关联 和 模式 。 

第 18 章 : 旧金山 海湾 之 殉 : 次 贷 危 机 的 影响 。Hadley Wickham, 
Deborah F.Swayne 和 David Poole 通 过 使 用 开源 软件 和 公共 数据 资源 ， 市 


领 读者 走 进 对 近年 来 旧金山 海湾 地 区 的 住房 危机 的 详尽 研究 。 

第 19 章 : 美丽 的 政治 数据 。Andrew Gelman、Jonathan P.Kastellec 和 
Yair Ghitza 展 示 了 统计 和 数据 可 视 化 工具 是 如 何 帮 助 我 们 加 深 对 社会 进 
行 组 织 的 政治 进程 的 理解 。 

第 20 章 : 连接 数据 。Toby Segaran 探 索 了 对 Web 上 可 获取 的 大 量 的 数 
据 集 进行 连接 的 挑战 性 和 可 能 性 。 

本 书 使 用 的 体例 

本 书 遵循 以 下 字体 体例 : 

斜体 (Talic) 

表示 新 的 术语 、URL、Email 地 址 、 文 件 名 和 文件 扩展 名 。 

等 宽 字 体 (Cnstant width) 

用 于 程序 清单 以 及 段落 中 的 程序 单元 如 变量 或 函数 名 称 、 数 据 库 、 
数据 类 型 、 环 境 变量 、 声 明和 关键 字 。 

等 宽 粗 体 字 (Cnstant width bold) 

显示 命令 或 者 其 他 由 用 户 输入 的 文本 。 

等 宽 斜 体 字 (Cnstant width italic) 

表示 必须 根据 用 户 提 供 的 值 或 者 由 上 下 文 决定 的 值 进行 替代 的 文 
AX. 

使 用 本 书 的 样 例 代码 

本 书 是 为 了 帮助 你 完成 工作 。 通 常 来 说 ， 你 可 以 在 你 的 程序 和 文档 
中 使 用 本 书 的 代码 。 除 非 你 使 用 了 本 书 的 大 量 代 码 ， 否 则 你 无 需 联系 我 

















们 获取 许可 。 例 如 ， 写 一 个 程序 用 到 本 书 的 几 段 代码 不 需要 获得 许可 ， 
销售 和 分 发 O'Reilly 从 书 的 代码 需要 获得 许可 ; 引用 本 书 的 样 例 代码 来 
解决 一 个 问题 不 需要 获得 许可 ， 使 用 本 书 的 大 量 代 码 到 你 的 产品 文档 中 
需要 获得 许可 。 

我 们 不 要 求 你 (引用 本 书 时 ) 给 出 出 处 ， 但 是 如 果 你 这 么 做 ， 我 们 
对 此 表示 感谢 。 出 处 通常 包含 标题 、 作 者 、 出 版 社 和 ISBN。 例 
如 : “Beautiful Data,edited by Toby Segaran and Jeff 
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如 果 你 觉得 你 对 本 书 样 例 代码 的 使 用 超出 了 这 里 给 出 的 许可 范围 ， 
请 与 我 们 联系 : permissions@oreilly.com。 
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在 不 远 的 过 去 ，Web 就 是 关于 共享 、 广 播 和 分 有 发。 但 是 漳 流 在 变 : 
Web 已 经 走 进 了 个 人 的 世界 。 每 个 月 ， 新 的 应 用 如 雨后春笋 般 诞 生 ， 这 
些 应 用 可 以 奶 躁 、 监 测 和 分 析 人 们 的 行为 习惯 ,使 他 们 更 好 地 了 人 解 自己 
和 周围 的 世界 。 人 们 可 以 对 饮食 习惯 、 运 动 、 上 网 时 间 、 人 性 生活 、 每 月 
的 上 自行 车 旅行 、 睡 觉 、 情 绪 和 资产 进行 在 线 跟踪 。 如 果 你 对 目 己 生活 中 
的 某 一 部 分 感 兴趣 ， 很 可 能 存在 某 种 应 用 可 以 对 它 进行 跟 踩 。 

当然 ， 个 人 数据 收集 不 是 什么 新 鲜 事 。 在 20 世 纪 30 年 代 ， 英 国 的 社 
会 研究 小 组 Mass Observation， 收 集 了 关于 日 常生 活 的 各 个 方面 的 数据 
一 一 如 胡须 、 丑 毛 、 芍 驶 员 的 叫喊 和 手势 ， 以 及 人 们 在 战争 纪念 牌 前 的 
行为 ， 这 些 都 是 为 了 对 英国 有 更 好 的 理解 。 然 而 ， 数 据 收集 方法 从 1930 
年 开始 已 经 有 了 提高 ， 现 在 不 再 仅仅 是 一 文笔 和 便条 纸 ， 或 者 是 一 个 手 
工 的 计数 器 。 数 据 可 以 通过 手机 和 手持 电脑 目 动 收集 ， 因 此 每 天 都 可 以 
持续 地 上 传 数据 和 信息 流 到 服务 堪 、 数 据 库 和 所 谓 的 数据 仓库 。 

随 着 数据 收集 技术 的 进步 ， 数 据 流 也 发 展 为 比 Mass Observation! |! 
与 者 报告 的 计算 计数 要 强大 得 多 的 技术 。 数 据 可 以 实时 修改 ， 因 此 ， 人 
们 期 望 获取 最 新 的 信息 。 

但 是 ， 只 是 简单 地 为 人 们 提供 数 以 GB 计 的 数据 是 不 够 的 。 并 非 所 有 
人 都 是 统计 学 家 或 者 计算 机 科学 家 ， 而 且 也 不 是 每 个 人 都 愿意 对 大 数据 


























集 的 数据 进行 筛选 过 滤 。 这 是 我 们 在 个 人 数据 收集 上 经 常 面 临 的 问题 。 

虽然 收集 和 返回 的 数据 类 型 可 能 已 经 随 着 时 间 变 化 ， 但 是 个 人 的 需 
求 是 不 变 的 。 也 就 是 说 ， 那 些 收 集 关 于 自己 和 他 们 周围 的 数据 的 个 人 ， 
他 们 还 是 会 收集 这 些 数据 ， 以 获得 对 流动 的 数据 的 信息 有 更 好 的 理解 。 
绝 大 多 数 时 候 ， 我 们 不 是 追求 数据 本 号; 我 们 感 兴 趣 的 是 数据 的 真正 含 
义 。 这 是 个 微小 的 区 别 ， 却 是 非常 重要 的 一 点 。 这 个 需求 要 求 系统 能 够 
处 理 个 人 数据 流 ， 高 效 准 确 地 处 理 这 些 数据 ， 把 这 些 信息 通过 易于 理解 
且 有 用 的 方式 分 发 给 非 专 业 人 员 。 我 们 想 要 的 远 远 不 只 是 一 个 电子 表格 
的 数据 ， 我 们 想 要 的 是 隐 伟 在 这 些 数据 中 的 故事 。 

构建 这 样 的 系统 要 求 同 时 在 分 析 和 审美 上 作出 严谨 的 设计 思考 。 这 
在 我 们 实现 PEIR(Personal Environmental Impact Report， 个 人 环境 影响 报 
TD) 中 是 非常 重要 的 。PEIR 人 允许 人 们 在 微观 层面 观察 自己 如 何 影响 环境 
以 及 环境 如 何 影响 自己 ; your.flowingdata(YFD) 是 一 个 正在 开发 的 项 
目 ， 人 允许 用 户 通过 Twitter 来 收集 自己 的 数据 ， 后 者 是 一 个 微 博客 服务 。 

在 PEIR 项 目 中 ， 我 是 其 前 端 开 发 工程 师 ， 主 要 工作 是 负责 用 户 界 面 
(U) 和 数据 可 视 化 。 对 于 YFD， 我 是 唯一 参与 者 ， 因 此 我 的 职责 可 能 
些 不 同 ， 但 我 还 是 集中 于 研究 可 视 化 方面 。 虽 然 PEIR 和 YFD 在 数据 类 
型 、 收 集 和 处 理 上 区 别 其 大， 但 是 它们 的 目标 是 相似 的 。PEIR 和 YFD 都 
是 为 个 人 提供 信息 ; 但 为 个 人 提供 信息 又 都 不 是 它们 的 最 终 目标 。 相 反 
地 ， 它 们 都 是 为 了 激发 人 们 的 兴趣 ， 了 解 即 自己 每 天 做 出 的 抉择 如 何 为 
生活 带 来 重大 影响 ， 然 后 开始 探讨 个 人 数据 。 在 对 PEIR 和 YFD 有 了 简单 
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然后 我 将 深入 探讨 PEIR 和 YFD 数 据 可 视 化 背后 的 设计 过 程 ， 通 闻 这 些 统 
称 为 个 人 数据 可 视 化 。 最 后 ， 我 们 想 向 人 们 显示 他 们 自己 的 个 人 数据 之 
美 。 


个 人 环境 影响 报告 (OPIR) 


PEIR 是 由 加 州 大 学 洛杉矶 分 校 的 租 入 式 网 络 传 感 中 心 (Cnter for 
Embedded Networked Sensing) 开 发 的 ， 或 者 更 准确 地 说 ， 是 由 城市 传 感 
小 组 (Uban Sensing group) 开 发 。 我 们 重点 利用 日 常 的 移动 技术 《〈 如 手 
DL) 来 收集 关于 周围 和 自己 的 数据 ， 因 此 人 们 可 以 对 如 何 与 身边 的 事物 
进行 交互 有 更 好 的 理解 。 例 如 ，DietSense 是 一 个 在 线 服务 ， 它 允许 人 们 
自我 监测 饮食 选择 以 及 进一步 向 饮食 专家 咨询 ，Family Dynamics 帮 助 家 
庭 和 生活 教练 记录 一 个 家 庭 每 日 交互 的 关键 特征 ， 如 户外 驻扎 和 家 庭 聚 
餐 ; Walkability 帮 助 居民 和 行人 ， 提 倡 通过 观察 发 表 他 们 对 于 附近 的 步 
行 适宜 性 和 与 公共 交通 的 联系 的 看 法 。 中 所 有 这 些 项 目 使 得 人 们 可 以 只 
通过 手机 参与 到 社区 活动 中 。 我 们 利用 手机 内 置 的 传感器 ， 如 摄像 头 、 
GPS 和 加 速度 计 来 收集 数据 ， 通 过 这 些 设备 来 提供 信息 。 

PEIR 采 用 了 类 似 的 原则 。 例 如 某 个 用 户 下 载 一 个 名 为 Campaignr 的 很 
小 的 软件 到 他 的 手机 ， 该 软件 可 以 在 后 台 运 行 。 随 着 该 用 户 每 日 的 活动 
一 一 比如 在 田径 道 慢 跑 、 开 车 上 下 班 、 去 杂货 店 买 点 东西 ， 手 机 每 2 分 
钟 就 会 上 传 GPS 数据 到 PEIR 的 中 央 服 务 器 ， 包 括 纬度 、 经 度 、 高 度 、 
率 和 时 间 。 我 们 利用 该 数据 来 预 估 个 人 对 环境 的 影响 和 排放 。 不 需要 环 
境 污染 传感器 ;相反 地 ， 我 们 使 用 在 很 多 手机 上 已 经 具备 的 功能 
GPS， 然 后 传递 这 些 包 含 “环境 ”信息 的 数据 (如 天 气 ) 来 构建 环境 模 
型 。 最 后 ， 我 们 对 环境 影响 和 排放 数据 进行 数据 可 视 化 。 这 个 阶段 的 挑 
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和 目标 ， 因 为 用 户 和 目标 驱动 着 系统 设计 ， 从 可 视 化 直到 数据 收集 和 和 存 
储 。 

[1]Mass Observation 是 一 个 英国 社会 研究 组 织 。 它 通过 500 名 未 经 过 训 


练 的 志愿 者 的 观察 来 记录 英国 人 的 上 日常 生活 。 请 参考 








http: //en.wikipedia.org/wiki/Mass_Observation. 


2ICENS 城 市 感知 ， 有 具体 参见 http: //urban.cens.ucla.edu/. 


your.flowingdata(Y FD) 


PEIR 使 用 的 是 运行 在 后 台 的 定制 软件 ，YEFD 则 要 求 用 户主 动 通过 
Twitter 得 入 数据 。Twitter 是 一 个 微 博客 服务 ， 它 提出 了 一 个 简单 的 问 
题 ， 您 现在 在 做 什么 ?人 们 可 以 张贴 ， 或 者 更 确切 地 说 ， 可 以 通过 呆 面 
应 用 、 邮 件 、 即 时 通信 告诉 别人 他 们 正在 做 的 事 ; 而 且 最 重要 的 是 〈 惑 
YFD 而 言 )SMS， 它 意味 厦 人 们 可 以 通过 手机 和 别人 交流 。 

YFD 利 用 了 Twitter 的 普遍 性 ， 因 此 人 人 们 可 以 在 任何 地 方 通 过 Twitter 
发 送 SMS 消 妃 来 交流 个 人 数据 。 用 户 目前 可 以 跟踪 饮食 习惯 、 体 重 、 睡 
眠 、 情 绪 ， 以 及 简单 地 通过 发 布 特定 形式 的 消息 来 跟踪 他 们 什么 时 候 上 
洗手 间 。 像 PEIR 一 样 ，YFD 癌 用 户 表明 的 是 : 这 些小 事 可 以 对 我 们 的 生 
活 方式 产生 深远 的 影响 。 在 设计 过 程 中 ， 我 们 依然 考虑 用 户 体验 。 什 么 
将 会 激励 用 户 频 营地 手工 输入 数据 ? 我 们 如 何 使 得 数据 收集 对 于 用 户 来 
说 尽 可 能 地 简单 ? 一 旦 数据 被 记录 下 来 ， 我 们 应 该 如 何 和 用 户 交 流 ? 最 
后 ， 我 将 从 数据 收集 开始 谈 起 。 








个 人 数据 收集 





个 人 数据 收集 和 科学 数据 收集 在 一 定 程度 上 有 所 区 别 。 个 人 数据 收 
集 通常 较为 不 正式 ， 而 且 不 是 发 生 在 具备 控制 条 件 下 的 实验 室 里 。 人 们 
收集 现实 世界 中 的 数据 ， 而 在 现实 世界 中 ， 存 在 干扰 、 网 络 连 接 故 障 或 
者 访问 受 限 的 计算 机 。 用 户 不 一 定 是 数据 专家 ， 所 以 如 果 出 了 问题 (这 
通常 是 不 可 避免 的 ) ， 他 们 可 能 不 知道 如 何 调整 来 解决 问题 。 

因此 ， 从 用 户 角度 ， 我 们 需要 使 得 数据 收集 变 得 尽 可 能 简单 。 它 应 
该 是 无 干扰 的 、 直 观 的 且 易 于 访问 的 ， 这 样 数据 收集 才 更 有 可 能 成 为 日 
常生 活 的 一 部 分 。 

使 数据 收集 成 为 日 常生 活 

这 是 我 选择 Twitter 作为 YFD 数 据 代 理 的 主要 原因 ， 它 可 以 通过 电话 
或 者 计算 机 连 到 数据 库 。Twitter 允 许 用 户 通 过 一 些 不 同 的 渠道 发 布 
Twitter 消息 (teebl 。 用 户 可 以 通过 移动 电话 发 布 Twitter 消 息 ， 由 于 这 一 
点 ， 用 户 可 以 在 任何 地 方 通过 电话 发 送 SMS 消 息 记录 数 据 ， 这 意味 着 人 
们 可 以 随时 记录 实际 情况 ， 而 不 需要 等 到 他 们 可 以 访问 计算 机 时 才 开始 
记录 。 如 果 需 要 等 待 ， 人 们 很 可 能 会 筷 记 。 因 此 ， 易 于 访问 获取 是 很 关 
键 的 。 

人 们 可 以 通过 E-mail 而 不 是 Twitter 来 完成 一 些 相 似 的 事情 ， 因 为 很 多 
手机 允许 人 们 给 E-mail 发 送 SMS， 而 这 实际 上 正 是 YFD 的 最 初 实现 方 
式 。 然 而 ， 我 们 回 到 数据 收集 作为 日 常生 活 的 一 个 基本 部 分 。 成 百 上 干 
































万 的 人 们 已 经 在 频繁 地 使 用 Twitter， 由 于 这 一 点 ， 其 挑战 性 已 经 被 部 分 
削弱 了 。 人 们 确实 也 在 很 频繁 地 使 用 E-mail， 而 且 比 起 Twitter， 人 们 也 
有 可 能 更 习惯 于 使 用 E-mail。 但 是 这 二 者 在 本 质 上 还 是 很 有 区 别 。 在 
Twitter 上 ， 人 们 发 布 自 己 正在 做 的 事 ， 每 天 更 新 好 多 次 信息 。Twitter 最 
初 被 创建 也 仅仅 是 因为 这 个 原因 。 某 个 人 可 能 正在 吃 三 明治 、 出 去 散心 
或 者 在 看 电影 。 成 千 上 万 的 人 每 天 发 布 这 类 Twitter 消息 。 而 另 一 方面 ， 
E-mail 本 身 就 意味 着 其 主要 是 一 些 更 有 价值 的 信息 。 绝 大 多 数 人 不 会 给 
朋友 发 E-mail， 告 诉 朋友 他 们 正在 看 一 个 电视 节目 一 一 尤其 不 会 每 天 或 
者 每 个 小 时 告诉 朋友 们 这 些 事情 。 

通过 利用 Twitter 得 到 的 这 种 发 布 频率 ， 我 们 期 望 它 能 够 用 于 数据 收 
集 。 我 尝试 着 使 得 在 YFD 上 记录 数据 和 在 Twitter 上 的 感觉 一 样 。 举 个 例 
子 ， 如 果 有 个 人 吃 意 大 利 香 肠 的 三 明治 ， 他 发 送 了 一 条 消息 :“ 吃 了 意 
大 利 香肠 三 明治 ”(ae salami sandwich)。 通 过 这 种 方式 ， 数 据 收集 就 变 成 
了 交谈 方式 。 用 户 不 需要 学 习 像 SQL 一 样 新 的 语言 。 相 反 地 ， 他 们 只 需 
要 记 住 关键 字 及 其 对 应 值 。 在 前 一 个 例子 中 ， 关 键 字 是 “ate”， 值 
是 “salami sandwich”。 为 了 跟踪 睡眠 ， 用 户 简单 地 发 送 一 个 关键 字 : Bi 
觉 时 是 “goodnight”， 醒 来 时 是 “gmorning”。 

在 某 些 方面 ， 用 PEIR 频 繁 发 布 信息 的 挑战 要 比 在 YFD 上 小 一 些 。 因 
为 PEIR 是 在 后 台 自 动 收集 数据 ， 用 户 只 需要 通过 点 击 儿 下 按钮 ， 就 可 以 
启动 其 手机 上 的 软件 。 开 发 那 种 软件 本 身 存 在 一 定 的 困难 ， 但 那 就 是 另 
一 回 事 了 。 























异步 数据 收集 

对 于 PEIR 和 YFD， 我 们 发 现 民 步 数据 收集 实际 上 是 必要 的 。 当 人 们 
遇 到 一 些 感 兴趣 的 事情 发 生 后 ， 他 们 会 希望 输入 和 上 传 数据 。 在 YFD， 
人 们 希望 能 够 给 他 们 的 Twitter 消息 增加 时 间 戳 ， 而 PEIR 用 户 想 要 手工 上 
传 GPS 数据 。 

正如 之 前 所 述 ， 创 建 YFD 的 初始 想法 是 人 们 在 遇 到 一 些 事情 时 ， 会 
希望 输入 数据 来 记录 它们 。 这 是 使 用 Twitter 的 好 处 和 目的 。 然 而 ， 很 多 
人 没有 通过 手机 使 用 Twitter， 因 此 他 们 需要 等 到 可 以 用 电脑 时 才 登 录 
Twitter。 即 使 是 那些 确实 给 Twitter 发 送 SMS 消 息 的 用 户 通常 也 会 忘记 记 
录 数 据 ， 有 些 人 只 是 想 在 每 天 结束 前 输入 所 有 的 数据 。 

不 用 说 ，YFD 现 在 支持 时 间 惟 。 数 据 入 口 的 语义 尽 可 能 地 贴近 交谈 
仍然 很 重要 。 为 了 实现 这 个 目标 ， 用 户 可 以 给 他 们 的 Twitter 消息 添加 时 
间 惟 ， 比 如 “早上 6 点 吃 烤 鸡 和 士 豆 ”(ae roast chicken and potatoes at 6: 
00pm) 或 者 “晚上 11 点 晚安 *(godnight at 23: 00) 。 时 间 惟 语义 上 只 是 简 
单 地 在 Twitter 消息 的 最 后 添加 一 个 “at hh:mm”。 我 还 发 现 同时 支持 标准 
格式 和 军事 格式 的 时 间 惟 是 有 用 的 。 最 后 ， 当 用 户 输入 一 个 时 间 戳 ， 
YFD 将 会 记录 该 时 间 的 最 近 出 现 频 度 ， 因 此 在 先前 的 “goodnight”* 例 子 
中 ，YFD 会 输入 昨天 晚上 的 时 间 点 。 

PEIR 的 初始 设计 也 只 是 为 了 “当时 ”(i the moment) 的 数据 收集 。 正 如 
前 述 ，Campaignr 运 行 在 用 户 的 手机 上 ， 周 期 性 把 GPS 数 据 (每 20 分 钟 
上 传 一 次 ) 上 传 到 中 心服 务 器 。 这 对 一 个 每 天 运行 PEIR 的 用 户 来 说 ， 他 











本 身 只 需要 很 少 的 付出 ， 就 可 以 收集 成 干 上 万 的 数据 点 。 一 旦 在 手机 上 
安装 PEIR 应 用 ， 用 户 只 是 简单 地 按 动 几 下 按钮 就 可 以 启动 应 用 。 人 然而 ， 
几乎 从 一 开始 ， 我 们 就 发 现 不 能 依赖 100% 可 达 的 网 络 连 接 ， 因 为 几乎 
总 有 地 区 是 服务 无 法 覆盖 的 。 最 简单 虽然 也 是 最 幼稚 的 做 法 是 只 有 当 手 
机 可 以 上 网 时 才 收 集 和 上 传 数 据 。 这 种 做 法 的 代价 是 我 们 可 能 会 失去 大 
量 的 数据 。 相 反 地 ， 我 们 通过 缓存 把 数据 存储 在 手机 的 本 地 内 存 ， 直 到 
手机 可 以 重新 连 上 网 络 。 我 们 还 提供 了 另 一 个 方案 来 收集 数据 ， 而 不 需 
要 同步 上 传 这 些 数据 。 

这 种 做 法 的 一 个 不 足 之 处 在 于 ， 期 望 人 们 在 事件 发 生 时 收集 数据 是 
不 合理 的 。 人 们 会 忘记 收集 数据 或 者 在 当时 不 方便 收集 数据 。 在 以 上 任 
何 情况 下 ， 提 供用 户 在 后 期 也 能 够 输入 数据 的 功能 是 很 重要 的 ， 这 一 点 
又 反 过 来 影响 了 数据 流 的 下 一 步 设 计 。 





数据 存储 


对 于 YFD 和 PEIR， 很 重要 的 一 点 是 应 该 记 住 : 一 旦 数据 被 收集 了 ， 
我 们 应 该 如 何 处 理 这 些 数据 。 通 常情 况 下 ， 数 据 库 机 制 和 数据 库 模 式 都 
是 在 一 念 之 间 设 计 的 ， 研 究 人 员 在 处 理 过 程 中 会 渐渐 后 悔 ， 其 原因 或 者 
是 因为 他 们 当时 的 决策 使 现在 的 数据 处 理 变 得 很 困难 ， 或 者 是 因为 数据 
库 不 具有 扩展 性 。YFD 在 这 方面 的 选择 不 是 特别 困难 。 我 们 在 其 他 项 目 
中 使 用 MySQL， 而 YFD 通 常 只 涉及 较 简 单 的 插入 和 选择 语句 ， 因 此 很 
容易 搭建 系统 。 此 外 ， 数 据 是 人 工 输 入 的 一 一 而 不 是 像 PEIR 那 样 连 续 上 
传 ， 因 此 数据 库 表 的 大 小 在 开发 早期 不 是 问题 。 主 要 的 考虑 是 当 增 加 新 
的 数据 字段 时 ， 我 希望 能 够 扩展 数据 库 模 式 ， 因 此 在 创建 数据 库 模 式 时 
考虑 到 这 一 点 。 

男 一 方面 ，PEIR 需 要 更 细心 的 数据 库 开 发 。 我 们 每 几 分 钟 就 执行 成 
干 上 万 的 基于 地 理 的 计算 ， 因 此 我 们 采用 了 PostGIS， 为 PostgreSQL 数 
据 库 增加 地 理 对 象 文 持 。 虽 然 MySQL 提 供 了 GIS 和 空间 扩展 ， 我 们 认为 
从 PEIR 的 需求 考虑 ， 把 PostGIS 和 PostgreSQL 结 合 在 一 起 是 更 健壮 的 方 
Ro 

以 上 的 描述 可 能 过 于 简化 了 我 们 的 数据 库 设 计 过 程 ， 这 里 我 需要 谈 
一 点 背景 。 我 们 的 团队 是 由 10 个 左右 的 研究 生 组 成 ， 每 个 人 都 有 自己 的 
研究 方向 。 正 如 你 所 料 ， 每 个 人 也 都 致力 于 PEIR 的 不 同 模块 的 工作 。 这 


种 分 工 方式 极 大 地 影响 了 我 们 的 工作 方式 。PEIR 的 数据 最 初 是 非常 分 散 











的 。 我 们 没有 使 用 统一 的 数据 库 模式 ， 在 需要 多 个 数据 库 时 ， 就 创建 多 
个 数据 库 ， 而 且 并 没有 遵循 任何 特定 的 设计 模式 。 无 论 谁 在 PEIR 的 早 中 
期 加 入 PEIR 项 目 ， 他 都 会 对 去 哪里 查找 数据 、 查 找 什么 数据 以 及 应 该 和 
谁 联系 感到 困惑 不 已 。 我 这 么 说 是 因为 我 自己 正 是 在 这 个 时 候 加 入 
PEIR。 为 了 减轻 数据 分 散 带 来 的 问题 ， 我 们 最 终 冻 结 了 所 有 的 开发 工 
作 。 一 个 在 PEIR 的 各 个 模块 都 做 过 开发 的 同事 ， 很 灵活 地 把 每 个 人 的 代 
码 和 数据 库 表 结合 起 来 。 本 次 代码 和 模式 的 凝 合 〈c onsolidation) 在 用 户 
体验 开发 之 前 完成 是 非常 必要 的 ， 而 且 这 一 点 在 后 期 中 越 来 越 明 显 。 现 
在 回想 起 来 ， 在 早期 对 数据 存储 方面 付出 更 多 的 努力 来 进行 精心 设计 是 
很 值得 的 ， 而 这 一 点 也 正 是 研究 生 研 究 的 本 质 。 

协调 和 代码 凝 合 对 于 YFD 不 是 问题 ， 因 为 YFD 只 有 我 一 个 开发 人 
员 。 我 可 以 很 容易 改变 数据 库 模 式 、 用 户 接口 和 数据 收集 机 制 。 我 采用 
了 Django， 一 个 基于 Python 语 言 的 Web 框 架 ， 它 采用 f MVC(Model- 
View-Control， 模 型 -视图 -控制 器 ) 模式 ， 支 持 敏 捷 高 效 开发 。 但 是 ， 
我 确实 需要 每 件 事 都 自己 完成 。 因 为 我 们 团队 的 每 个 小 组 成 员 在 统计 、 
计算 机 科学 、 工 程 、GIS 和 环境 科学 上 的 多 样 性 ，PEIR 可 以 完成 更 多 的 
功能 一 一 最 显著 的 是 在 数据 处 理 领 域 ， 这 在 下 一 节 将 会 介绍 。 因 此 ， 和 
一 个 庞大 的 团队 一 起 开发 ， 必 然 有 其 一 定 的 优势 和 不 足 。 


























数据 处 理 


数据 处 理 是 个 人 数据 收集 系统 最 重要 、 最 基础 的 部 分 ， 这 部 分 几乎 
都 不 为 用 户 所 见 ， 而 且 用 户 也 不 感 兴趣 。 用 户 通 常 是 对 数据 处 理 的 结果 
更 感 兴趣 。 这 就 是 YFD 面 临 的 情况 。 相 反 地 ，PEIR 用 户 可 以 通过 观察 他 
们 的 数据 是 如 何 处 理 的 而 从 中 受益 ， 而 且 这 反 过 来 也 影响 他 们 诠释 数据 
表示 对 环境 带 来 的 影响 和 排放 的 方式 。 

PEIR 的 分 析 组 件 包含 一 系列 服务 端的 处 理 步骤 ， 这 包括 GPS 数据 到 
对 影响 和 排放 的 预 佑 。 更 确切 地 说 ， 我 们 可 以 把 PEIR 的 处 理 过 程 分 解 为 
四 个 独立 的 阶段 门 。 

1. 跟 踪 纠 正和 标注 : 只 要 可 能 ， 我 们 通过 预 估 技 术 ， 如 利用 道路 网 
进行 地 图 匹配 和 构建 宗 地 数据 (prcel data) 来 对 易于 引起 错误 、 抽 样 定位 
的 地 理 位 置 踪迹 进行 纠正 和 标注 。 因 为 这 些 纠正 和 标注 是 估计 值 ， 它 们 
确实 包含 一 定 的 不 确定 性 。 

2. 活 动 和 地 理 位 置 分 类 : 通过 使 用 web 服务 ， 纠 正和 标注 的 数据 会 目 
动 分 类 为 移动 的 或 者 静止 的 ， 从 而 可 以 为 菜 人 在 茶 天 的 模型 输出 提供 一 
级 完善 。 其 数据 也 基于 售 沛 时 间 ， 划 分 为 不 同 的 旅途 行程 。 

3. 上 下 文 预 估 : 把 正确 和 分 类 的 地 理 位 置 数据 作为 基于 Web 的 信息 资 
源 的 输入 ， 这 些 信 息 资 源 包 括 天 气 、 路 面 状况 和 区 驶 员 行 为 的 汇总 。 

4. 排 放 和 影响 计算 : 最 后 ， 把 细 粒 度 、 分 类 和 衍生 的 数据 作为 地 理 
空间 数据 集合 和 微观 环境 模型 的 输入 ， 这 些 输入 反 过 来 又 可 以 用 于 提供 


个 人 的 个 性 化 估计 值 。 

虽然 PEIR 的 重点 还 是 研究 这 四 个 步骤 的 处 理 过 程 的 结果 ， 但 是 我 们 
最 终 发 现 用 户 想 要 对 如 何 估计 影响 和 排放 这 些 方面 有 更 多 的 了 解 。 因 
此 ， 我 们 提供 每 块 数据 处 理 过 程 的 细节 ， 比 如 在 高 速 公 路 上 花费 的 时 间 
比 、 用 户 旅 游 地 方 周 边 的 天 气 情 况 。 我 们 还 包含 了 对 每 个 提供 的 尺度 的 
详细 解释 。 在 这 种 情况 下 ， 预 估 过 程 的 透明 性 允许 用 户 了 解 他 们 的 行为 
对 环境 是 如 何 产 生 影 响 和 排放 的 ， 而 不 仅仅 是 了 解 他 们 对 周边 地 区 造成 
的 污染 有 多 么 大 或 多 么 小 。 当 然 ， 也 存在 如 信息 过 载 的 情况 ， 因 此 我 们 
对 于 应 该 展示 多 少 信息 量 很 慎重 。 这 些 方面 将 在 下 一 节 做 更 多 的 探讨 。 

[1]PEIR, http: //peir.cens.ucla.edu 














数据 可 视 化 


一 旦 数据 被 收集 、 上 传 和 处 理 ， 用 户 需 要 能 够 访问 、 评 估 和 浏览 他 
们 的 数据 。YFD 和 PEIR 的 主要 设计 目标 是 使 得 个 人 数据 对 于 非 专业 人 员 
也 可 以 理解 。 数 据 必须 通过 可 关联 的 方式 来 展示 ; 它 需 要 具有 人 性 化 。 
通常 情况 下 ， 我 们 会 过 于 陷入 统计 图 形 和 图 表 之 中 。 这 些 图 形 和 图 表 非 
常 有 用 ， 但 是 同时 我 们 也 希望 用 户 能 够 参与 进来 ， 这 样 他 们 可 以 因为 感 
兴趣 而 留 下 来 ， 继 续 收 集 数 据 ， 不 断 地 回 到 站 点 来 衡量 他 们 所 跟踪 的 任 
何事 情 的 进展 。 用 户 必须 理解 的 一 点 是 : 数据 是 关于 他 们 自己 的 信息 ， 
而 且 反 映 的 是 他 们 在 日 常生 活 中 做 出 的 选择 。 

我 想 把 数据 可 视 化 视 为 一 个 故事 。 故 事 的 主角 是 用 户 。 我 们 可 以 采 
取 两 种 方式 来 讲述 这 个 故事 。 一 个 关于 图 形 和 图 表 的 故事 可 能 读 起 来 很 
像 一 本 教科 书 ， 但 是 ， 一 个 包含 场景 、 关 系 、 交 互 、 模 式 和 解释 的 故事 
读 起 来 像 是 一 部 小 说 。 这 并 不 是 说 其 中 一 个 比 男 一 个 更 好 。 有 很 多 有 趣 
的 教科 书 ， 同 时 也 有 很 多 《如 果 不 是 更 多 ) 庸俗 的 小 说 。 当 我 们 对 个 人 
数据 作 可 视 化 分 析 时 ， 想 要 的 是 介 于 教科 书 和 小 说 之 间 的 “故事 ”"。 我 们 
想 要 展示 事实 ， 但 我 们 也 想 提供 场景 ， 比 如 什么 人 、 什 么 时 间 、 什 么 地 
点 以 及 结果 数字 的 原因 是 什么 。 我 们 追求 的 是 情感 。 数 据 通常 是 枯燥 无 
味 的 ， 但 只 有 当 我 们 以 枯燥 的 方式 来 展现 时 它们 才 会 如 此 。 

PEIR 

对 于 PEIR， 我 们 面临 的 挑战 是 如 何 展示 科学 数据 一 一 “ 矶 ”影响 、 高 




















密度 的 颗粒 物 排放 以 及 对 敏感 地 区 《如 医院 和 学 校 ) 造成 的 影响 。 影 响 
和 排放 并 没有 成 为 人 们 每 天 谈资 的 一 部 分 。 绝 大 多 数 人 并 不 知道 一 天 释 
放 1000 千 克 的 碳 到 底 是 很 多 还 是 很 少 。 排 放 一 小 时 高 密度 的 颗粒 物 是 否 
正常 ? 这 些 问 题 都 成 为 PEIR 可 视 化 设计 的 考虑 因素 。 但 是 ， 必 须 记 住 一 
点 ， 昌 然 结果 数据 不 是 可 以 马上 被 理解 ， 但 是 它们 都 是 通过 地 理 位 置 数 
据 衍 生出 来 ， 而 地 理 位 置 数据 本 刁 是 非常 直观 的 。 可 能 很 少 有 如 一 个 人 
在 物理 空间 的 地 理 位 置 这 样 易 于 被 立即 理解 的 数据 。 因 此 ， 我 们 使 用 地 
图 作为 数据 可 视 化 的 锚 点 ， 从 地 图 开始 着 手 。 

映射 基于 地 理 位 置 的 数据 

基于 地 理 位 置 的 数据 驱动 着 PEIR 系 统 ， 因 此 交互 式 的 地 图 是 用 户 界 
面 的 核心 。 我 们 最 初 使 用 GMap API， 但 很 快 就 由 于 灵活 性 原因 采取 了 
男 一 个 方案 一 一 采用 Modest Maps 取 而 代 之 。Modest Maps 是 基于 “由 
图 ”(debased) 的 地 图 的 展现 和 交互 库 ， 它 以 Flash 方 式 展 现 ， 通 过 
ActionScript 3.0 实 现 。Modest Maps 提 供 了 一 组 核心 特性 ， 如 放大 缩小 ， 
而 且 设计 师 和 开发 人 员 可 以 很 容易 地 定制 展现 方式 。Modest Maps 的 实 
现 方式 可 以 容易 地 转换 地 图 “贴图 ”， 这 些 地 图 “贴图 ?可 以 是 微软 的 ， 定 
制 的 或 者 以 上 全 部 包含 。 我 们 可 以 自由 地 调整 颜色 、 布 局 和 全 局 样式 ， 
这 些 带 来 了 良好 的 设计 实践 和 有 用 的 可 视 化 展现 。 而 且 由 于 其 灵活 性 ， 
我 们 可 以 在 地 图 上 结合 或 者 补充 自己 的 可 视 化 展现 方式 。 毕 竞 ， 我 们 不 
想 把 自己 仅仅 受 限于 地 图 ，Modest Maps 为 我 们 提供 了 这 种 灵活 性 。 


通过 视觉 提示 (vsual cue) 进 行 实验 






































在 决定 最 终 的 映射 机 制 之 前 ， 我 们 实验 了 多 种 不 同 的 方式 来 呈现 
PEIR 数 据 。 在 设计 过 程 中 ， 我 们 考虑 了 几 种 参数 : 

如何 使 用 户 能 够 马上 和 各 种 旅行 轨迹 进行 交互 而 不 会 把 地 图 弄 得 很 
混乱 ? 

如何 能 够 同时 呈现 静态 (用 户 处 于 悠 内 状态) 和 运动 (用 户 在 运 
动 ) 的 数据 块 ? 

:如 何 呈 现 从 所 有 四 个 微观 环境 模型 中 获取 的 数据 值 ? 

-应 该 采用 什么 颜色 来 表示 GPS 轨迹 、 影 响 和 排放 ? 

:如 何 把 重点 转移 到 实际 的 数据 上 ， 而 不 是 底层 的 地 图 <“ 贴图? 

映射 多 元 地 理 位 置 轨迹 

在 设计 过 程 的 早期 阶段 ， 我 们 把 GPS 轨迹 以 用 户 通 常 看 见 的 地 理 位 
置 轨迹 的 方式 进行 映射 ， 只 是 简单 地 一 条 线 从 一 个 点 到 达 另 一 个 点 。 在 
考虑 微观 环境 模型 的 值 之 前 采用 这 种 方式 ， 因 此 地 图 是 通过 使 用 Modest 
Maps 和 OpenStreetMap 的 “贴图 ”数据 的 方式 做 的 简单 实现 。 其 GPS 轨迹 
是 单一 色 的 ， 只 唯一 表示 地 理 位 置信 息 ; 在 轨迹 的 最 后 有 个 圆圈 
(crcle)， 因 此 用 户 可 以 知道 旅程 是 从 哪里 开始 ， 然 后 在 哪里 结束 。 

这 在 某 个 范围 内 是 可 行 的 ， 但 是 很 快 我 们 就 需要 对 更 多 的 数据 进行 
可 视 化 ， 因 此 我 们 改变 了 呈现 方式 一 一 基于 影响 和 排放 值 来 对 轨迹 进行 
着 色 。 其 着 色 方 案 采 用 了 五 种 不 同 深 度 的 红色 。 碳 影响 的 级 别 越 高 ， 其 
红色 就 越 深 。 同 样 地 ， 碳 影响 级 别 越 低 的 旅程 ， 其 红色 就 越 浅 。 

这 种 呈现 方式 的 隐 含 意思 是 用 户 对 环境 的 影响 越 大 ， 该 旅程 在 地 图 




















上 的 显示 就 越 突出 。 这 种 实现 方式 的 问题 是 在 地 图 的 轨迹 并 不 明显 《〈 见 
图 1-1) 。 我 们 答 试 过 使 用 更 鲜亮 的 颜色 ， 但 是 鲜亮 的 颜色 和 地 图 上 现 
存 的 颜色 交 杂 会 显得 比较 混乱 。 虽 然 我 们 希望 轨迹 显示 上 能 够 很 明显 ， 
但 是 我 们 不 希望 使 用 户 产 生 视 觉 疲 和 大。 为 了 解决 这 个 问题 ， 我 们 尝试 了 
一 种 不 同 的 映射 机 制 ， 该 机 制 采用 的 方式 是 在 地 图 上 的 所 有 旅程 都 用 单 
色 显 示 ， 但 是 使 用 了 一 些 圆圈 对 影响 和 排放 进行 加 密 。 所 有 的 轨迹 都 是 
白色 的 ， 模 型 值 通过 圆圈 实现 可 视 化 表示 ， 这 些 圆圈 在 旅程 的 终点 展 

现 ， 其 大 小 不 一 。 模 型 值 越 大 ， 圆 圈 的 面积 就 越 大 ， 反 之， 模型 值 越 
小 ， 圆 疼 的 面积 束 越 小 。 但 是 这 种 设计 策略 很 快 就 被 淘汰 了 。 
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Ss aa —À ana — a. 
图 1-1: 我 们 在 地 图 上 对 不 同 的 视 沉 提示 进行 实验 ， 通 过 影响 和 排 


放 值 来 最 佳 展示 地 理 数据 。 以 上 展示 了 我 们 初始 设计 的 三 次 和 迭代。 最 左 
边 的 地 图 显示 根据 碳 影响 所 呈现 的 彩色 GPS 轨迹 ; 对 于 中 间 的 地 图 ， 我 
们 通过 单 色 的 圆圈 面 (aea circle) 来 表示 影响 ; 对 于 右边 的 地 图 ， 我 们 结合 
了 GPS 数据 来 呈现 用 户 什 么 时 候 有 空 ， 然 后 重新 采用 单 色 的 颜色 编码 方 
和 案 〈 见 彩 图 1) 

只 在 轨迹 的 终点 〈 通 过 圆圈 ) 来 表示 值 ， 这 种 显示 方式 的 问题 之 一 
是 用 户 会 误 认 为 圆圈 意味 着 每 次 旅程 的 终点 发 生 了 一 些 事情 。 (AE, SE 





际 上 并 不 是 这 样 。 地 图 本 应 该 展示 的 是 在 旅程 的 全 部 过 程 中 发 生 了 一 些 
事情 。 

在 你 旅程 的 任何 地 方 都 释放 碳 ， 而 不 是 收集 起 这 些 碳 然后 再 在 终点 
被 释放 。 我 们 切换 回 原 来 的 对 旅程 进行 颜色 编码 的 方式 ， 删 除 表 示 模 型 
值 的 大 小 不 一 的 圆圈 面 。 在 设计 过 程 的 这 一 方面 ， 我 们 现在 有 两 种 类 型 
的 GPS 数据 : 动态 的 和 静止 的 。 动 态 的 GPS 数据 意味 着 用 户 在 运动 ， 不 
论 是 徒步 行走 还 是 芝 车 行驶 ， 静 态 的 数据 表示 用 户 没 有 在 运动 。 她 可 能 
坐 在 蝎子 上 或 者 梓 交 通 拥 墙 困 住 。 为 了 展示 静态 的 数据 块 ， 我 们 并 没有 
完全 抛弃 在 地 图 上 使 用 圆圈 面 的 方式 。 圆 奖 越 大 ， 意 味 独 历时 周期 越 
长 ， 相反 地 ， 圆 较 越 小 ， 意 味 着 历时 半期 越 短 。 和 旅程 相似 ， 也 是 通过 
线条 来 表示 的 ， 圆 面相 应 地 进行 着 色 。 例 如 ， 如 果 用 户 选 择 通过 颜色 来 
标示 颗粒 物 排 放 值 ， 在 高 速 公 路 上 静止 的 数据 块 会 显示 为 颜色 鲜艳 的 贺 
E. 

然而 ， 我 们 还 是 面临 着 与 之 前 相同 的 问题 : VADE ELI GE US CE XU ES] 
上 突出 显示 而 且 不 会 和 地 图 已 有 的 颜色 相 冲 突 。 我 们 已 经 试 着 为 这 些 轨 
迹 采 用 不 同 的 颜色 机 制 ， 但 是 尚未 尝试 改变 实际 地 图 的 色调 。Trulia 
Snapshot 是 为 房地产 做 地 图 的 公司 ， 受 到 它 的 局 发 ， 我 们 用 灰色 来 表示 
地 图 “贴图 ”， 对 换 颜 色 过 滤器 ， 这 样 把 原来 颜色 很 浅 的 地 图 元 素 的 颜色 
变 深 ， 反 之 亦 然 。 更 具体 地 说 ， 地 形 原本 是 浅 色 的 ， 那 么 现在 它 应 该 是 
深 灰 色 的 ， 而 马路 原本 是 深 色 的， 现在 改 为 浅 灰色 。 这 种 深 色调 的 地 图 
能 够 突出 显示 浅 色 的 轨迹 ， 而 且 由 于 地 图 是 灰 度 模式 图 ， 颜 色 冲 突变 少 




















fy CWA1-2) 。 用 户 不 需要 费 很 大 的 劲 儿 束 能 把 他 们 的 数据 从 道路 和 
HE BA RIXA BE. Modest Maps 提 供 了 这 种 灵活 性 。 
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图 1-2: 在 当前 的 映射 机 制 中 ， 我 们 采用 颜色 过 滤器 来 高 亮 显 示 数 
据 。 地 图 仅仅 是 提供 上 下 文 信息 。 链 接 的 直方 图 显示 映射 后 的 数据 的 影 
响 和 排放 分 布 。 当 用 户 通过 滚动 条 看 直方 图 的 某 一 栏 ， 相 应 的 GPS 数据 
会 在 地 图 上 高 亮 显 示 ( 见 彩 图 2) 

选择 一 种 颜色 机 制 

一 且 我 们 把 地 图 “由 图 ”通过 深 色 背景 显示 ， 而 把 旅程 通过 浅 色 前 景 
显示 ， 我 们 确定 了 需要 使 用 什么 颜色 。 这 一 点 很 重要 ， 因 为 用 户 会 识别 
一 些 颜 色 表示 某 些 特定 事件 。 例 如 ， 红 色 通 常 表示 停止 或 者 前 方 有 人 危 
险 ， 而 绿色 则 意味 着 进展 或 者 增长 ， 尤 其 是 站 在 环境 的 立场 上 看 。 

另外 很 重要 的 一 点 是 不 要 使 用 太 多 颜色 对 比 非 常 分 明 的 色彩 。 采 用 
颜色 很 不 相似 的 不 连续 的 数据 则 意味 着 是 分 类 数据 。 但 是 ， 模 型 值 有 连 
续 的 范围 。 因 此 ， 我 们 采用 有 稍微 渐变 的 颜色 。 在 早期 的 设计 版 本 中 ， 
我 们 尝试 使 用 不 同 深 度 的 绿色 色 阶 来 表示 。 用 户 评 论说 因为 绿色 通常 意 
味 着 好 的 方面 或 者 是 对 环境 友好 ， 通 过 绿色 来 表示 影响 和 排放 程度 很 高 
































会 显得 很 怪异 。 于 是 ， 我 们 采用 了 不 同色 阶 的 绿色 和 黄色 组 合 来 取代 。 
从 低 值 到 高 值 ， 我 们 增 量 式 地 把 颜色 分 别 从 绿色 切换 到 黄色 。 把 影响 或 
者 排放 值 为 零 的 旅程 显示 为 白色 。 

使 旅程 有 交互 性 

用 户 一 次 可 以 潜在 地 映射 成 百 上 干 的 旅程 ， 提 供 关 于 旅游 习惯 、 影 
啊 和 排放 的 一 个 总 体 概 要 ， 但 是 用 户 也 需要 碍 看 每 个 旅程 的 细节 。 仅 仅 
把 一 个 旅程 映射 到 地 图 上 是 不 够 的 。 用 户 需 要 能 够 和 各 次 旅程 进行 交 
互 ， 从 而 能 够 清楚 自己 相关 旅程 的 环境 信息 。 

当 用 户 在 PEIR 地 图 上 通过 滚动 条 来 查看 旅程 ， 该 旅程 会 高 亮 显示 ， 
而 所 有 其 他 的 旅程 都 会 变 得 暗淡 ， 和 背景 融合 起 来 但 又 不 是 完全 消失 。 
更 确切 地 说 ， 对 感 兴趣 的 旅程 的 透明 度 减少 了 ， 而 其 他 旅程 的 模糊 度 变 
成 原来 的 5 倍 。Cabspotting 是 对 旧金山 的 出 租车 活动 做 的 可 视 化 地 图 ， 
是 它 局 发 了 我 们 实现 该 效果 。 当 用 户 在 地 图 上 点 击 一 个 旅程 ， 该 旅程 的 
日 志 会 自动 滚动 到 用 户 感 兴趣 的 旅程 上 。 再 一 次 强调 ， 该 设计 的 目标 是 
为 了 给 用 户 提供 尽 可 能 多 的 环境 信息 ， 而 且 不 会 显得 整个 屏幕 很 杂乱 。 

当然 ， 这 些 特征 只 在 某 个 范围 内 处 理 多 个 旅程 。 例 如 ， 如 果 在 一 个 
密度 高 的 地 区 有 成 百 上 千 的 长 途 旅 行 ， 这 些 旅程 会 由 于 杂乱 而 变 得 难以 
分 析 导 航 。 因 而 我 们 结合 用 户 提 供 的 元 数据 如 标签 和 分 类 ， 期 望 提 高 这 
一 领域 。 

呈现 分 布 


PEIR 在 地 图 右 侧 提 供 直方 图 来 显示 对 选择 的 路 程 的 影响 和 排放 分 


























布 。 有 四 个 直方 图 ， 每 个 直方 图 都 表示 一 个 微观 环境 模型 。 每 当 用 户 从 
旅程 日 志 中 选择 旅程 时 ， 和 直方 图 就 会 日 动 更 新 。 如 果 在 绝 大 多 数 情 况 
下 ， 旅 程 在 影响 和 排放 上 的 值 很 高 ， 直 方 图 就 会 向 右倾 斜 ， 类 似 地 ， 如 
果 在 绝 大 多 数 情况 下 ， 旅 程 在 影响 和 排放 上 的 值 很 低 ， 那 么 直方 图 就 会 
回 左 倾斜 。 

我 们 最 初 认为 直方 图 会 是 有 用 的 ， 因 为 它们 在 统计 上 应 用 得 如 此 广 
沁 ， 但 实际 情况 并 非 如 此 。 和 直方 图 给 入 禹 来 的 更 多 是 困惑 而 不 是 对 事物 
的 洞悉 力 。 昌 然 只 有 很 小 的 测试 组 认为 它们 是 有 用 的 ， 绝 大 多 数 人 会 认 
为 横 轴 是 时 间 ， 而 纵 轴 是 影 啊 或 排放 值 。 人 们 似乎 对 随 着 时 间 变 化 的 模 
式 更 感 兴趣 ， 而 不 是 对 全 局 分 布 。 因 此 ， 我 们 转 为 采用 基于 时 间 的 条 形 
图 ( 见 图 1-3，。 用 户 能 够 看 到 它们 随 着 时 间 的 推移 造成 的 影响 和 排放 
的 连续 值 序列 ， 而 且 可 以 按 周 浏览 。 
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图 1-3: 实践 证 明 : 时 间 序 列 条 形 图 比 基 于 值 的 直方 图 更 有 效 

分 享 个 人 数据 

PEIR 人 允许 用 户 和 他 们 的 Facebook 朋 友 互 相 分 享 自己 的 影响 和 排放 
值 ， 这 种 方式 可 以 作为 男 一 种 比较 有 价值 的 方式 。 正 是 通过 分 享 ， 我 们 
可 以 绕 过 轴线 的 绝对 范围 解释 ， 而 是 把 重点 放 在 相对 值 上 ， 这 样 可 以 进 
一 步 帮助 我 们 进行 推导 。 昌 然 1000 千 克 的 碳 看 起 来 可 能 很 多 ,但 是 和 其 
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他 用 户 进 行 比 较 后 ， 可 以 改变 这 种 误解 。 和 其 他 的 Facebook 朋 友 相 比 ， 
我 们 的 PEIR Facebook 应 用 显示 了 用 户 在 Facebook 的 个 人 信息 的 汇总 值 
〈 见 图 1-4) 。 
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GPS data from a Nokia mobile phone is used to derive the following results. 
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A CENS project powered by Nokia 
图 1-4: PEIR 的 Facebook 应 用 允许 用 户 分 享 他 们 对 影响 和 排放 值 的 发 
现 ， 以 及 与 朋友 的 进行 比较 ( 见 彩 图 3) 

PEIR Facebook 应 用 显示 了 用 户 的 影响 和 排放 值 的 条 状 图 ， 以 及 他 或 
她 朋友 的 影响 和 排放 值 的 平均 值 。 该 应 用 也 显示 了 这 些 值 的 全 局 排序 。 
影响 或 者 排放 值 越 低 的 用 户 ， 排 名 越 高 。 图 标 也 提供 了 更 多 的 环境 信 
恩 。 如 采 影 响 很 高 ， 则 会 显示 一 个 融 有 散发 着 很 多 浓 烟 的 烟 和 办 图 标 ， 如 
果 影 响 值 低 ， 则 会 显示 一 条 溪流 ， 溪 流 里 倒映 着 参 蓝 的 天 空 。 

把 注意 力 重新 转 回 PEIR 的 用 户 界 和 面 ， 除 了 个 人 信息 以 外 ， 用 户 也 有 
一 个 网 页 。 该 网 页 显示 上 周 用 户 影 响 和 排放 值 的 排序 ， 也 显示 了 用 户 好 























友 的 排序 。 其 目的 是 为 了 辟 励 用 户 减 少 影 响 和 排放 ， 提 高 排名 ， 同 时 也 
鼓励 他 们 的 朋友 这 么 做 。 虽 然 通过 千克 或 小 时 为 单位 表示 的 影响 和 排放 
的 实际 值 可 能 最 初 是 不 清晰 的 ， 但 排序 的 用 处 可 以 立 笔 见 影 。 当 用 户 退 
求 更 高 的 排序 ， 从 PEIR 微 观 环 境 模型 值 来 说 也 意味 着 更 多 ， 当 打 视 频 游 
戏 也 采用 相同 的 方式 时 ， 其 分 值 也 开始 有 了 意义 。 

读者 应 该 注意 到 其 中 没有 分 享 任何 GPS 数据 。 我 们 对 于 隐私 数据 非 
常 严 说， 采取 了 很 多 措施 使 得 某 些 数据 是 私有 的 ， 这 就 是 只 有 影响 和 排 
放 的 汇总 值 在 网 页 中 显示 的 原因 。 

YFD 

PEIR 处 理 的 是 一 些 不 是 立即 相关 的 数据 ， 而 YFD 则 刚好 相反 。YFD 
帮助 用 户 跟踪 每 天 日 常 对 话 的 数据 。 和 PEIR 一 样 ，YFD 的 目标 是 使 得 一 
些 生活 中 的 小 事 更 加 明显 。 正 是 小 的 选择 反而 产生 了 巨大 的 影响 ， 可 视 
化 可 以 证 明 这 一 点 。 

我 们 回 到 之 前 提 及 的 一 个 挑战 。 我 们 和 希望 用 户 能 够 频繁 地 用 Twitter 
对 话 ， 把 个 人 的 数据 收集 转 为 他 们 每 天 的 Twitter 日 党 习惯 。 数 据 收集 背 
后 的 动机 是 什么 ”为 什么 用 户 要 跟 躁 他们 自己 的 饮食 或 者 睡眠 习惯 ?可 
能 有 些 人 想 要 减肥 是 为 了 在 异性 面前 可 以 更 自信 ， 或 者 是 想 获得 更 多 的 
睡眠 是 为 了 不 在 办 公 桌 上 睡 着 。 但 是 ， 可 能 有 男 一 个 用 户 想 增加 体重 ， 
因为 她 生病 时 体重 减轻 了 ， 或 者 是 她 睡 得 太 多 ， 每 天 起 床 经 常 感觉 有 气 
无 力 。 其 他 用 户 可 能 仅仅 是 好 奇 。 很 明显 的 一 点 是 ， 无 论 其 动机 是 什 
么 ， 每 个 人 对 于 个 人 数据 收集 都 有 他 上 自己 的 理由 。 作 为 对 用 户 的 提醒 ， 



































YFD 重 点 突出 了 该 动机 ， 因 为 不 论 一 个 人 正在 尝试 的 饮食 和 了 睡眠 系统 如 
何 ， 除 非 他 们 自身 真正 希望 改变 ， 否 则 人 们 是 不 会 有 变化 的 。 注 意图 1- 
5 的 屏幕 中 间 通 过 大 号 字 显 示 的 个 人 动机 。 

需要 注意 的 另外 一 点 是 : 每 个 跟 踊 页 面 的 最 上 方 显示 了 最 近 最 经 常 
发 生 的 事情 。 这 么 做 有 以 下 目的 : 首先 ， 每 当 用 户 发 送 一 个 Twitter 消息 
数据 ， 就 会 被 更 新 ， 因 此 每 当 用 户 登录 到 YFD 时 ， 束 可 以 看 见 自己 的 状 
态 。 其 次 ， 我 们 不 希望 用 户 使 用 起 来 ， 体 验 和 Twitter 本 映 兰 别 太 大 ， 还 
是 进一步 使 用 户 把 YFD 的 Twitter 消息 作为 Twitter 的 日 常 习 惯 。 最 后 ， 
YEFD 的 设计 方案 绝 大 部 分 是 源 于 PEIR 的 经 验 。 用 户 似乎 期 望 的 是 基于 时 
间 的 可 视 化 ， 因 此 绝 大 多 数 的 YFD 可 视 化 就 是 基于 时 间 来 呈现 。 

有 一 个 特例 是 对 于 感觉 和 情绪 (felings and emotions) 的 跟踪 ( 见 图 1- 
6) 。 正 如 每 个 人 都 会 告诉 你 ， 情 绪 是 无 比 复杂 的 。 如 何 量化 幸福 、 伤 
心 或 者 焦虑 ? 把 情绪 分 解 为 图 形 和 数字 看 起 来 是 不 对 的 ， 因 此 ， 我 们 采 
用 有 序 的 标签 云图 (srted tag cloud) 取 而 代 之 。 后 者 在 某 种 程度 上 ， 让 人 
感觉 更 有 生命 。 出 现 频 度 更 高 的 情绪 比 频 度 低 的 在 呈现 上 字体 格式 更 
大 。YED 跟 踪 器 在 开发 的 早期 都 是 模块 化 的 ， 但 是 我 确实 计划 最 终结 合 
所 有 的 跟踪 器 ， 把 YFD 当 作用 户 生活 的 仪表 盘 。 感 觉 跟 踊 嚣 会 在 所 有 跟 
踩 器 的 中 间 。 最 后 ， 我 们 做 的 每 件 事 都 是 由 我 们 的 感觉 或 者 我 们 想 要 什 
么 样 的 感觉 来 驱动 的 。 
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图 1-5: 人 们 为 不 同 原因 跟踪 他 们 的 体重 和 饮食 。 YFD 把 这 动机 作 


JAN 77, 20001 14 CORE MP TONS 


为 用 户 界 面 的 焦点 〈 见 彩 图 4) 
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图 1-6: 用 户 还 可 以 跟踪 他 们 的 感觉 。 不 像 其 他 的 YFD 跟 踪 器 ， 情 
绪 页 面 不 包含 任何 的 图 形 图 表 。 选 择 单 词 “ 云 ”(coud) 是 为 了 提供 更 多 
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数据 可 视 化 通常 全 部 都 是 关于 数据 分 析 和 技术 结果 ， 但 实际 上 不 需 
要 如 此 ， 尤 其 对 于 个 人 数据 收集 。 人 们 收集 上 自己 的 数据 并 不 一 定 是 为 了 
奶 求 实际 数据 。 他 们 主要 是 对 结果 纺 涵 的 信息 以 及 如 何 使 用 上 自己 的 数据 
来 提高 自己 感 兴 趣 。 为 了 实现 这 一 点 ， 人 们 在 可 视 化 过 程 中 需要 观察 的 
不 仅仅 是 数据 ， 他 们 更 需要 观察 自己 。 生 活 很 复杂 ， 数 据 表示 生活 ， 用 
户 和 希望 能 够 通过 数据 在 茶 种 程度 上 能 够 了 解 这 种 复杂 性 。 但 这 并 不 意味 
独 我 们 需要 简化 数据 或 者 信息 。 相 反 地 ， 我 们 使 用 数据 可 视 化 来 教授 知 
识 ， 吸 引用 户 的 兴趣 。 一 旦 用 户 产 生 了 兴趣 ， 我 们 可 以 为 用 户 提供 茶 种 
方式 ， 从 而 可 以 更 深入 地 钻研 、 探 索 他 们 的 数据 ， 或 者 更 确切 地 说 ， 探 
索 和 理解 其 在 数据 中 的 生活 。 这 依赖 于 统计 学 家 、 计 算 机 科学 家 和 设计 
师 来 合理 地 讲述 其 中 的 故事 。 














如 何 参 与 


PEIR 和 YFD 目 前 只 能 通过 邀请 的 方式 加 入 但 是 如 果 你 希望 参与 ， 请 
访问 我 们 的 网 站 ， 分 别 是 http: //peir.cens.ucla.edu 和 
http: //your.flowingdata.com。 此 外 ， 如 果 你 想 和 PEIR 研 究 组 一 起 协作 结 
合 新 的 模型 、 策 略 或 数据 可 视 化 ， 或 者 如 果 你 对 于 如 何 提高 YFD 有 自己 
的 见解 ， 我 们 都 非常 期 望 听 到 你 的 意见 。 





Ble ”美丽 的 人 们 : 设计 数据 收集 方法 时 牢记 用 
户 


Jonathan Follett 和 Matthew Holm 


简介: 用户 共鸣 正当 其 时 





始终 牢记 受众 的 期 望 和 需求 。 这 个 指导 着 用 户 体 验 (uer 
experience,UX) 设 计 领 域 的 原则 ， 有 目 共 睹 一 一 足够 引起 任何 创造 新 
的 、 创 新 性 的 数字 技术 或 者 正在 改进 现 有 系统 的 任何 专业 人 员 的 注 
意 。“ 当 然 有 人 在 用 该 产品 ! ?虽然 以 用 户 为 中 心 的 设计 过 程 存 在 很 大 益 
处 ， 比 如 增强 了 产品 可 用 性 和 客户 满意 度 ， 减 少 了 800 服 务 呼叫 ， 但 是 
这 个 看 似 简 单 的 建议 人 们 并 非 总 是 遵守 ， 尤 其 是 当 涉及 数据 收集 方面 
时 。 

什么 是 用 户 体验 

用 户 体验 是 一 个 新 兴 的 、 跨 学 科 的 领域 ， 主 要 集中 在 设计 易于 理解 
和 使 用 的 产品 和 服务 上 。 它 主要 关注 于 使 得 系统 能 够 适应 并 服务 于 用 
户 ， 而 不 是 使 用 户 适 应 并 服务 于 系统 ( 见 图 2-1) 。 用 户 体验 专业 人 员 
可 以 包含 以 下 方面 的 从 业 人 员 和 研究 人 员 : 可 视 化 设计 、 交 互 设 计 、 信 
恩 架 构 、 用 户 界 面 设计 和 可 用 性 。 用 户 体 验 领域 与 人 为 因素 以 及 人 机 交 
互 密切 相关 ， 它 和 人 种 学 以 及 心理 学 也 有 一 定 联系 : 用 户 体验 专家 是 用 
户 的 倡导 者 。 通 常 ， 用 户 体 验 设计 拉 术 应 用 于 计算 机 果 面 软件 和 分 布 式 
Web 软 件 。 不 过 ， 文 持 者 可 能 会 更 广泛 地 使 用 这 一 术语 ， 用 其 描述 任何 
复杂 的 设计 经 验 ， 比 如 博物 馆 展 览 或 者 零售 店 的 用 户 访问 设计 。 

把 用 户 体验 的 最 佳 实践 应 用 于 数据 收集 的 好 处 

当 涉 及 数据 收集 时 ， 用 户 体验 设计 尤为 重要 。 数 据 《〈 最 宝 贯 的 数字 


























资源 ) 来 自 于 人 们 及 其 行动 。 因 此 ， 设 计 人 员 和 开发 人 员 应 该 一 直 考 虑 
这 些 人 ， 不 仅仅 是 考虑 他 们 想 要 收集 的 数据 。 收 集 在 线 人 们 的 数据 的 天 
键 方法 当然 是 通过 令 人 厌恶 的 表单 。 对 于 业务 来 说 ， 没 有 比 表单 更 有 价 
值 的 方式 ， 而 对 于 参与 者 而 言 ， 也 没有 比 表 单 更 令 人 厌烦 和 无 聊 的 方 
式 。 

作为 用 户 体 验 的 从 业者 ， 我 们 经 党 处理 借助 Web 表 单 从 大 量 的 受众 
那里 收集 来 的 数据 。 正 如 我 们 所 见 ， 优 雅 的 视觉 设计 的 表单 一 次 次 极 大 
地 帮助 了 数据 收集 。 对 于 任何 表单 设计 项 目 ， 其 所 提出 的 挑战 是 : 虽然 
数据 收集 比较 人 简单， 但 要 收集 到 有 用 的 数据 却 可 能 比 登 天 还 难 。 表 单 设 
计 很 重要 《〈 见 图 2-1) ， 它 会 丰 接 影响 到 你 获取 数据 的 质量 : 设计 民 好 
的 表单 可 以 收集 到 更 准确 和 更 相关 的 数据 。 

数字 产品 开发 通常 是 由 商业 或 技术 驱动 
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用 户 体验 设计 把 最 终 用 户 结合 到 设计 过 程 中 


edo = 


用 户 需求 和 动机 


图 2-1: 用 户 体验 设计 过 程 不 是 把 受众 的 需求 作为 事后 反思 ， 而 是 
在 设计 阶段 解决 处 理 受 众 需求 、 业 务 需 求 和 技术 可 行 性 

那么 ， 到 底 是 什么 驱动 人 们 去 填写 表单 、 创 造 我 们 需要 的 数据 ? 作 
为 设计 开 有 人员， 我 们 如 何 才 能 促使 他 们 更 切实 、 有 效 、 准 确 地 完成 这 
件 事 ? 

我 们 将 分 析 一 个 案例 研究 ， 用 来 说 明 一 个 通过 用 户 体验 的 最 佳 实践 
和 原则 来 提高 目 主 目 愿 的 问卷 回答 完成 率 的 简单 的 表单 设计 例子 。 














MEH: 关于 一 个 新 奢侈 品 的 用 户 调 但 


该 项 目 是 为 一 个 营销 咨询 公司 Urban Wallace Associates 做 网 上 调查 ， 
其 目的 是 探测 消费 者 对 一 种 新 的 奢侈 品 的 兴趣 。《〈 为 了 保密 ， 在 本 章 
中 ， 我 们 不 得 不 改变 调查 问题 内 容 的 一 些 细节 。) 被 调查 的 群体 与 该 产 
品 的 最 终 零 售 受众 群体 是 同一 群体 : 年 龄 在 55 一 75 岁 的 有 钱 人 。 

电子 邮件 调查 不 是 我 们 的 客户 的 第 一 选择 。Urban Wallace Associates 
已 经 尝试 过 对 目标 群体 进行 电话 调查 。“ 通 常情 况 下 ， 我 们 打 电 话 时 ， 
大 约 35% 是 录音 电话 ，”UWA 主 席 Roger Urban 说 , “但 是 在 有 钱 人 群体 
中 ， 有 超过 809% 是 录音 电话 。 即 使 有 人 接 电话 ， 接 电话 的 人 也 通常 是 管 
家 ! ” 

无 法 通过 电话 获得 令 人 满意 的 目标 受众 的 回答 ， 我 们 的 客户 转 而 使 
用 电子 邮件 。 他 们 选择 这 种 通信 方式 的 原因 是 ， 对 于 富裕 的 群体 ， 电 子 
邮件 是 普遍 使 用 的 工具 。 虽 然 电子 邮件 面临 其 自身 的 “守门 
员 ”(gtekeepeD《〈 即 自动 垃圾 邮件 过 滤 ) 但 很 少 有 人 雇佣 别人 为 自己 读 取 
邮件 。 即 便 是 有 钱 人 ， 他 们 也 仍然 是 亲自 打开 自己 的 电子 邮件 。 

Urban Wallace Associates 争 取 到 一 个 电子 邮件 营销 公司 为 他 们 生成 和 
预审 收 件 人 列表 ， 并 提供 投放 和 跟踪 外 放 信 息 。 我 们 公司 的 任务 是 设计 
和 构建 该 调查 需要 的 “着 陆 页 ”(Inding page， 即 访问 的 起 始 页 面 ) ， 当 收 
件 人 点 击 邮 件 正 文 的 一 个 链接 ， 该 页 面 就 会 在 他 的 浏览 器 打开 ， 然 后 收 
集 信息 到 数据 库 。 我 们 在 这 项 调查 中 的 首要 任务 是 维护 并 保持 问卷 调查 











的 Web 页 面 的 令 人 愉悦 的 氛围 ， 因 而 受 访 者 能 够 更 愿意 填写 表 蛙 。 我 们 
的 另外 一 个 任务 是 为 客户 创建 一 个 简单 的 页 面 ， 这 样 当 有 数据 进来 时 ， 
他 可 以 审查 实时 的 报告 结果 。 


数据 收集 面临 的 特殊 挑战 


数据 收集 提出 了 一 些 特殊 的 挑战 ， 包 括 可 访问 性 (acessibility)、 信 任 
和 用 户 动 机 。 以 下 各 节 将 讨论 这 些 问题 如 何 影响 了 我 们 的 设计 。 

可 访问 性 挑战 

倡导 Web 的 可 访问 性 (设计 使 得 网 页 和 网 站 对 于 有 特殊 需要 的 人 和 
残疾 人 仍然 是 有 用 的 ) 通常 情况 下 ， 设 计 一 个 具备 可 访问 性 的 站 点 同 时 
也 应 是 创建 一 个 对 于 每 个 人 都 更 易 用 的 网 站 。 这 并 不 只 是 该 案例 下 的 理 
论 想 法 ， 因 为 目标 受众 是 接近 退休 或 者 已 经 退休 的 成 员 ， 与 年 龄 有 关 的 
视力 障碍 将 成 为 真正 需要 关注 的 问题 。 约 72% 的 美国 人 在 45 岁 左右 时 报 
告 存 在 视力 障碍 。 

关于 年 龄 问题 的 另 一 方面 《由 于 担心 表现 出 歧视 性 ， 很 少 被 谈 及 ) 
是 老年 人 使 用 计算 机 和 互联 网 的 人 数 较 少 ， 而 且 不 像 那些 和 计算 机 一 起 
成 长 的 年 轻 人 那样 能 够 对 它们 驾轻就熟 。〔 收 入 越 蜗 的 个 人 ， 通 常 使 用 
计算 机 和 网 络 越 多 ， 因 而 ， 这 种 和 年 龄 相关 的 影响 在 我 们 的 受众 群 组 中 
BLAIS So) 被 一 个 设计 不 清晰 的 调查 所 僵 住 的 受 访 者 不 太 可 能 会 提供 
准确 的 信息 一 一 或 者 更 确切 地 说 ， 根 本 无 法 完成 这 项 调 碍 。 就 我 们 而 
对 于 所 有 的 这 类 项 目 ， 回 顾 那 最 基本 格言 是 值得 的 ; 了 解 你 的 受 
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直觉 的 挑战 
可 访问 性 是 个 功能 上 的 问题 ( 受 访 者 如 果 不 能 读 懂 一 个 调查 ， 就 无 





法 完成 该 调查 问卷 ) ， 我 们 的 项 目 面临 着 在 本 质 上 更 情感 化 的 其 他 挑 
战 ， 而 且 依赖 于 受 访 者 如 何 理解 提问 者 及 其 问题 。 

建立 信任 

Internet 用 户 很 清楚 在 线 透露 信息 可 能 会 有 严重 的 后 果 ， 包 含 增长 的 
垃圾 信息 、 电 话 诱惑 和 垃圾 邮件 ， 以 及 坎 又 和 号 份 盗 移 。 因 此 ， 对 这 些 
想 做 网 络 市 场 调研 者 来 说 ， 建 立信 任 是 很 重要 的 因素 。 即 使 对 产品 和 调 
查 的 答复 整体 非常 肯定 (我 们 将 在 后 面 详细 介绍 ，， 如 果 问 一 些 参与 者 
为 什么 对 产品 不 感 兴趣 ， 有 如 下 的 回答 : 

“不 信任 你 们 公司 ” 

“从 未 听 说 过 该 产品 的 提供 者 ” 

“不 相信 该 产品 声称 的 任何 方面 ” 

“ 买 不 起 .……. 不 信任 ,好 得 令 人 难以 置信 ， 因 此 很 可 能 不 是 真 的 。 
关于 该 产品 ， 请 不 要 再 联系 我 ! ” 

这 些 受 访 者 的 答复 ， 说 明了 为 建立 网 络 信任 ， 我 们 还 必须 走 很 长 的 
路 。 更 重要 的 是 ， 对 于 这 个 项 目 ， 明 确 要 求 我 们 不 能 销售 任何 东西 
我 们 是 在 做 调研 。 我 们 的 客户 Roger Urban 一 开始 就 告诉 我 们 : “我 不 想 
听任 何 像 是 搞 销 售 的 话 。” 明 确 地 提供 关于 Urban Wallace Associates 的 信 
息 是 很 必要 的 ， 这 样 人 们 就 知道 是 什么 样 的 公司 在 对 他 们 做 问卷 调查 ; 
而 且 明 确 地 指出 我 们 不 会 收集 他 们 的 个 人 资料 ， 而 且 也 不 会 再 骚扰 他 
们 。 其 中 唯一 的 障碍 是 ， 我 们 的 客户 调研 需要 知道 每 个 答复 者 在 美国 哪 
个 州 居 住 。 因 此 我 们 需要 探索 出 一 种 合适 的 方式 ， 在 没有 违背 我 们 正在 
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避免 受 访 者 不 积极 参与 是 我 们 所 面临 的 最 大 困扰 之 一 。 客 户 和 我 们 
再 要 在 早期 达成 一 致 ， 保 持 调 查 页 面 只 通过 一 个 屏幕 就 能 够 完全 显示 。 
如 琳 需 要 多 个 屏幕 显示 ， 不 但 需要 受 访 者 有 更 多 的 耐心 ， 而 且 可 能 需要 
他 们 执行 一 些 额外 操作 《比如 点 击 “ 下 一 个 问题 "按钮 ) 。 一 个 调查 在 任 
何 时 候 需 要 受 访 者 多 执行 一 步 操 作 ， 束 相当 于 “邀请 ”他 决定 这 额外 的 付 
出 是 不 值得 的 ， 然 后 选择 放弃 。 此 外 ， 我 们 希望 在 任何 情况 下 ， 调 伍 从 
始 至 终 部 应 该 避免 付 吓 受 访 者 。 多 个 屏 大 或 者 在 一 个 屏 人 右上 看 起 来 有 太 
多 问题 ， 这 些 都 增加 了 受 访 者 中 途 退 出 调查 的 可 能 性 。 

准确 的 数据 收集 

在 本 次 调查 的 设计 阶段 ， 我 们 考虑 的 一 个 特别 重要 的 问题 是 收集 的 
数据 必须 尽 可 能 准确 一 一 可 能 该 数据 只 是 一 个 显而易见 的 表述 ， 但 要 保 
证 准确 性 ， 还 是 很 困难 。 我 们 的 表单 设计 需要 参与 者 诚实 的 回答 ， 而 且 
其 回答 不 受 其 他 因 系 影响 ， 比 如 说 ， 潜 意识 地 希望 能 够 让 提问 者 高 兴 
(这 是 这 类 调研 的 “通病 *) 。 收 集 人 们 的 意见 这 方面 的 数据 和 收集 信息 
之 间 的 区 别 是 ， 后 者 可 能 本 质 上 更 偏重 于 管理 实施 ， 比 如 配送 地 址 ， 配 
送 地 址 可 以 很 容易 验证 ， 但 观点 意见 这 类 数据 ， 本 里 束 是 主观 的 ， 通 常 
不 是 那么 可 徘 。 虽 然 在 本 章 中 不 会 深入 涉及 设计 民意 调查 和 评测 结果 数 
据 这 门 科学 ， 但 是 我 们 将 会 讨论 为 至 励 受 访 者 填写 准确 的 答案 ， 我 们 团 
队 所 采用 的 一 些 语言 以 及 做 出 的 其 他 选择 。 



































动机 

最 后 ， 虽 然 我 们 已 经 谈 到 了 如 何 让 受 访 者 有 可 能 使 用 表单 ， 以 及 天 
于 以 下 方面 的 诸多 问题 : 让 受 访 者 信任 我 们 、 参 与 调 碍 ;避免 问题 太 
多 “ 吓 跑 ”了 受 访 者 ;确定 我 们 没有 潜意识 地 影响 他 们 的 回答 ， 以 及 我 们 
之 前 尚未 提 及 的 一 点 ， 而 且 可 能 是 任何 调查 最 重要 的 部 分 : 受 访 者 为 什 
么 要 参与 ? 对 于 这 类 调研 ， 不 存在 任何 参与 的 受益 动机 ， 不 像 Amazon 
的 Mechanical Turk 一 样 的 在 线 论 坛 ， 对 于 后 者 ， 用 户 可 以 在 空闲 时 间 完 
成 任务 ， 而 且 每 项 任务 可 以 获取 几 半 元 或 者 儿 美 分 。 然 而 ， 当 对 方 没有 
明显 的 利益 时 ， 如 何 说 服 一 个 人 花 时 间 来 回答 你 的 问题 ? 




















设计 解决 方案 


我 们 已 经 谈 到 了 对 于 数据 收集 项 目的 一 些 内 在 的 陷阱 ， 在 后 面 几 章 
将 分 析 我 们 设计 的 具体 细节 ， 包 括 排版 、Web 浏 贤 器 的 兼容 性 和 动态 表 
单元 素 。 

设计 哲学 

当 我 们 是 为 了 获取 受 访 者 的 答复 而 进行 设计 时 ， 从 用 户 角度 来 制定 
问题 是 很 重要 的 。 项 目 设 计时 很 容易 因为 技术 限制 而 陷入 其 中 ， 从 而 是 
为 计算 机 设计 而 不 是 为 用 户 。 但 是 表单 数据 是 由 用 户主 动 生成 的 《而 不 
是 通过 传感器 或 其 他 输入 被 动 生 成 ) ， 而 且 要 求 参与 者 决定 如 何以 及 是 
个 回答 你 的 问题 。 因 此 ， 以 何 种 方式 来 收集 参与 者 的 数据 至 关 重 要 。 我 
们 为 该 项 目 设计 Web 表 单 时 ， 重 点 在 于 对 调研 参与 者 和 客户 商业 目标 的 
动机 进行 权衡 。 客 户 的 主要 商业 目标 是 : 收集 数据 ， 决 定 目 标 受众 是 否 
对 购买 一 亚 新 的 奢侈 品 感 兴趣 一 一 与 以 用 户 为 中 心 的 设计 理念 一 致 。 通 
过 把 个 人 同时 置 于 顾问 和 潜在 的 未 来 客户 这 两 种 核心 角色 中 ， 业 务 目 标 
为 以 用 户 为 中 心 的 设计 决策 提供 了 强 有 力 的 理由 。 

以 下 是 我 们 在 制定 设计 决 集 时 遵循 的 一 些 指南 : 

BEH 

为 了 使 设计 在 整个 过 程 中 保持 以 人 为 本 ， 震 要 了 解 考 虑 用 户 的 情绪 
有 反应。 为 了 说 服 他 们 参加 ， 我 们 首先 必须 对 他 们 表示 世 重 。 他 们 不 是 作 
瓜 ， 而 是 我 们 的 潜在 客户 。 我 们 本 能 上 都 清楚 这 些 ， 但 令 人 惊讶 的 是 ， 
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望 构建 的 数字 产品 对 他 们 来 说 是 可 访问 的 、 可 用 的 且 易 于 理解 。 这 种 观 
点 影响 了 我 们 做 出 的 每 个 选择 ， 包 括 从 语言 、 布 局 直至 技术 。 

展现 真实 的 人 们 

对 于 时 间 节 委 了 要求 很 快 或 者 预算 受 限 的 项 目 ， 我 们 通 闻 没有 资源 基 
于 目标 市 场 研究 来 塑造 一 个 完整 的 用 户 个 人 信息 或 角色 ， 或 者 在 用 户 的 
工作 环境 中 观 去 他 们 。 在 这 些 情况 下 ， 采 取 人 简单 的 “ 洲 击 队 ? 趟 的 用 户 体 
验 技术 使 用 户 产 生 共鸣 ， 其 指导 性 的 设计 决策 是 想 想 一 个 我 们 认识 的 真 
实 的 人 ， 我 们 真正 地 想 要 帮助 他 。 我 们 已 经 有 一 些 这 样 的 角色 蔡 身 来 指 
导 我 们 思考 ， 包 括 年 迈 的 父母 、 一 些 很 了 解 其 先前 情况 的 商业 伙伴 。 当 
然 ， 通 过 数字 产品 去 想象 这 些 人 只 是 设计 的 第 一 步 。 既 然 对 他 们 很 了 
解 ， 我 们 也 可 以 在 设计 的 初期 测试 时 取得 他 们 当中 一 些 人 的 帮助 。 

最 终 ， 人 们 会 调整 自己 的 行为 ， 如 果 有 必要 ， 那 么 他 们 的 行为 几乎 
可 以 和 任何 设计 保持 一 致 。 用 户 体验 的 目的 是 优化 这 些 设计 ， 使 得 人 们 
会 期 望 使 用 茶 种 产品 或 服务 ， 而 且 可 以 不 需要 调整 他 们 的 行为 ， 惑 能 够 
更 方便 、 人 快捷 地 使 用 这 些 产品 和 服务 。 

表单 布局 设计 

通 各 来 说， 不 论 表单 做 得 多 么 漂亮 ， 它 都 不 太 可 能 会 达到 取悦 用 户 
的 水 准 。 设 计 师 没有 “ 芭 杯 ”使 人 们 对 填写 表单 充满 激情 。 但 是 表单 的 审 
美 艺术 还 是 很 重要 : 清晰 的 信息 、 可 视 化 的 设计 可 以 明晰 地 引导 用 户 看 
哪些 方面 ， 避 励 他 们 对 表单 填写 坚持 到 最 后 而 不 是 中 途 放 弃 任 务 ， 从 而 

















减轻 用 户 的 无 聊 厌 倦 情 绪 。 好 的 表单 设计 不 会 把 用 户 注 意 力 吸引 到 自己 
本 号 ， 表 单 应 该 几乎 是 不 可 见 的 ， 永 远 信 守 其 主要 目的 一 一 从 人 们 那里 
收集 准确 的 信息 。 虽 然 表 单 设计 需要 给 人 感觉 既 舒 服 又 专业 ， 但 在 绝 大 
多 数 情 况 下 ， 和 其 他 形式 的 Web 页 面相 比 ， 经 过 合理 的 视觉 处 理 的 表单 
会 给 人 感觉 既 含 蓄 又 实用 。 表 单 视觉 设计 只 能 通过 它 如 何 有 效 地 促使 用 
户 完成 任务 这 个 指标 来 判断 。 对 于 这 个 项 目 ， 我 们 在 设计 上 的 努力 主要 
集中 在 排版 、 页 面 布局 和 交互 设计 这 三 个 领域 。 

Web 表 单 排版 和 可 访问 性 

通常 来 说 ， 年 纪 较 大 的 读者 看 较 小 的 东西 很 吃力 ， 而 且 调 查 参 与 者 
也 不 会 “慷慨 ”到 为 了 阅读 一 个 表单 ， 甘 愿 让 自己 的 眼睛 受累 。 由 于 调查 
项 目的 目标 受众 是 年 龄 较 大 〈55 一 75 岁 ) 的 群体 ， 我 们 清楚 整体 的 易 读 
性 将 是 个 问题 。 

我 们 采用 Sans Serif 字 体 类 型 Arial (类 似 于 微软 推出 的 骨干 字体 
Helvetica)， 它 对 几乎 100% 的 Web 浏 览 器 都 是 标准 的 ， 我 们 对 标题 和 正 
文 的 字体 大 小 分 别 设置 为 20 像 素 (pxel) 和 14 像 素 。 虽 然 字体 大 会 造成 整 
个 页 面 稍 长 ， 但 由 于 其 带 来 的 易 读 性 方面 的 改善 ， 该 代价 是 值得 的 。 

行 间距 不 是 很 紧 ， 且 采用 左 对 齐 的 方式 。 每 行 长度 大 约 是 85 个 字 
符 。 对 于 大 多 数 文本 ， 我 们 设置 了 高 对 比 度 一 一 白 底 黑 字 的 显示 方式 ， 
这 种 设计 也 是 出 于 易 读 性 的 考虑 。 虽 然 我 们 确实 可 以 在 策略 上 使 用 鲜艳 
的 颜色 对 页 面 进行 高 亮 显 示 ， 而 且 突出 显示 主要 标题 ， 但 是 我 们 并 没有 
依赖 这 种 方式 来 为 用 户 提 供 额外 信息 。 我 们 这 样 做 的 原因 是 ， 大 约 有 















































79% 一 8% 的 男性 受众 是 茶 种 类 型 的 色盲 。 

给 入 们 一 些 空间 

没有 “呼吸 空间、 设计 过 于 紧凑 的 表单 必定 会 吓 坏 用 户 。 因 此 ， 在 
布局 时 留 一 些 开放 空间 很 重要 。 

在 我 们 的 调查 中 ， 表 单 的 第 一 部 分 包括 对 该 奢侈 产品 的 文本 摘 述 ， 
在 该 文本 描述 中 ， 我 们 请 求 参与 者 对 它 进 行 阅读 和 评估 。 由 于 阅读 Web 
页 面 的 读者 的 注意 力 能 够 集中 的 时 间 很 得， 而 且 他 们 倾 问 于 略 过 一 部 分 
文本 而 不 是 通读 。 因 此 ， 章 从 Web 写 作 的 最 佳 实践 ， 我 们 把 250 个 单词 
的 产品 描述 切 分 为 包含 多 个 标题 的 子 部 分 ， 即 抽取 出 关键 点 ， 并 把 这 些 
点 划分 成 几 个 易于 理解 的 不 同 分 块 〈 见 图 2-2) 。 











文本 空 自 总 是 受 人 欢迎 ， 
的 分 块 CERERERKE. 
不 会 让 人 感到 压 


图 22: 为 易 读 性 而 设计 (HAS) 
适应 于 不 同 的 浏览 器 ， 并 测试 兼容 性 
为 了 确保 表单 对 于 受众 是 可 用 的 ， 我 们 设计 了 表单 页 面 ， 这 样 对 于 








从 800 个 像素 到 更 多 像素 的 不 同 大 小 的 屏幕 ， 用 户 都 可 以 很 容易 地 查看 
该 表单 。 为 了 实现 这 一 点 ， 我 们 把 表单 放 在 浏览 器 中 间 ， 使 用 中 性 的 灰 
色 背 景 来 填充 由 于 宽频 显示 器 引起 的 左右 空白 剩余 空间 ， 而 且 保 证 表单 
看 起 来 不 会 显得 空洞 和 “飘忽 不 定 *"。 为 了 确保 主流 表单 看 起 来 不 错 旦 能 
够 正常 工作 ， 我 们 还 在 所 有 的 主流 Web 浏 览 器 上 进行 测试 ， 包 括 传统 的 
IE6 浏 览 器 。 

交互 设计 考虑 : 动态 表单 长 度 

动态 表单 可 以 “舒缓 ”需要 回答 很 多 问题 带 来 的 “ 重 击 *”。 使 用 
JavaScript 或 者 其 他 方法 允许 表单 基于 用 户 输入 ， 做 一 些微 妙 的 修改 或 加 
长 ， 从 而 营造 一 种 柔和 的 展现 方式 ( 见 图 2-3 和 图 2-4) 。 这 些 技术 允许 
我 们 对 以 下 两 方面 做 出 权衡 ， 一 方面 不 会 由 于 表单 太 长 而 吓 坏 了 用 户 ， 
男 一 方面 不 会 使 用 户 因 为 在 表单 长 度 方 面 感到 被 “欺骗 "而 动 怒 。 

对 于 我 们 的 项 目 ， 实 际 上 是 根据 用 户 回答 的 每 个 问题 来 构建 了 整个 
调查 。 我 们 使 用 了 一 段 简单 的 JavaScript 脚 本 ， 确 保 每 个 新 问题 都 是 基于 
前 一 个 问题 的 回答 。 这 种 解决 方案 的 思想 来 自 于 我 们 当时 为 之 工作 的 另 
一 个 Web 站 点 。 那 个 项 目 是 为 设计 者 创建 组 合 站 点 ， 我 们 使 用 JavaScript 
来 隐藏 和 显示 不 同 项 目的 细节 ， 使 得 用 户 一 眼 就 可 以 理解 设计 者 的 所 有 
作品 ， 然 后 对 感 兴趣 的 领域 进行 深入 研究 ， 而 且 都 不 需要 离开 该 站 点 的 
首页 。 这 种 思想 不 但 没有 把 用 户 淹没 在 过 多 的 信息 中 ， 同 时 还 使 得 这 些 
信息 能 够 很 快 地 被 用 户 所 访问 。 我 们 在 设计 该 调研 上 时， 一直 牢记 着 该 想 
法 。 以 下 是 我 们 使 用 的 代码 : 



































<script language="JavaScript"> 

//This finds the word"Yes"in an input value and displays the 
designated 

hiddenElement 
(o hides it if"Yes"is not found) 
function switchem(switchElement, hiddenElement) { 
if (switchElement.value.search ("Yes") >-1) 
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document.getElementById(hiddenElement).style.display-''; 
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document. getElementBylId(hiddenElement 








[0] 


tyle.display-'none'; 














</script> 

<script language="JavaScript"> 

//This finds the word"No"in an input value and displays the 
designated 

hiddenElement 
(o hides it if"No"is not found) 
function switchem2 (sitchElement, hiddenElement) { 
if (switchElement.value.search ("No") >-1) 
document.getElementById(hiddenElement).style.display-''; 
else 
document.getElementById(hiddenElement).style.display-'none'; 
} 
</script> 
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E 2-3: 调查 开始 只 有 3 个 问题 ( 见 彩 图 6) 





<li id="surveyl"class="sSurveynum" >How interested would you be to 
purchase this 

kind of product? 

<p><b>Would you say that you: </b></p> 

<ul class="nobullet"> 

<1i><input 

onclick="switchem(this, 'survey2') ; switchem2(tis, 'survey3') ; 
document. 

get Element 
Byld ('surveytextarea') .value=''"type="radio"name="gl"value="Yes, 

Definitely would purchase">Definitely would purchase</li> 




















<1i><input 
onclick="switchem(this, 'survey2') ; switchem2(tis, 'survey3') ; 


document. 
getElement! 








ById ('surveytextarea') .value-''"type-"radio"name-"q1"va: 





would purchase" Probably would purchase</1li> 








<1i><inp 





ut 


onclick="switchem(this, 'survey2') ; switchem2 (tis, 'survey3') ; 


document. 








getElement! 





ById ('surveytextarea') .value='"'"type="radio"name="gl1"va_ 





Or 


might not purchase">Might or might not purchase</li> 
«li «input 
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A 24: 基于 用 户 输入 ， 调 查 可 能 会 扩展 到 6 个 问题 ( 见 彩 图 7) 





onclick="switchem(this, 'survey2') ; switchem2(tis, 'survey3') ; 


document. 


























getElementById ('q2a') .checked-false; 
document.getElementById ('q2b') . 














document. 


























getElementById ('q2d') .checked-false; 




















document.getElement 


ById ('g2e') . 








checked-false; document.getElementById ('q2f') .checked-1 

















checked-false; document.getElementById ('q2c') .checked-1 





False; 





False; 








document. getElement! 





By 








Id ('q2g') .checked-fals "typ -"radio"name-"q1' 
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se"t 


uld not purchase" Probably would not purchase</li> 


Id ('q2c') .checked-false; 








.checked-false; 
































ype="radio"name="ql' 


finitely would not purchase</1li 


<1i><input 

onclick="switchem(this, 'survey2') ; switchem2 (tis, 'survey3') ; 
document. 

getElementByld ('q2a') .checked=false; 
document .getElementBylId ('q2b') 

checked=false; document.getElementBy 
document. 

getElementByld ('q2d') .checked=false; 
document .getElementBylId ('q2e') 

checked-false; document.getElementById ('q2f') 

document.getElementById ('q2g') .checked=fal 

Definitely would not purchase">Det 
> 

</ul> 

</li> 


the product"> 


it can be 


customized 
taste</li> 

<1i><input 
of 

owning 





not in 





<li id="survey2"style="display:none"class="surveynum">Which of 
the 








following are 


extremely important to you? 
<p> (Ceck up to 3 responses) </p> 
<ul class="nobullet"> 








<1i><inpu 





The price of 
<1i><inpu 
Ta: 
< 











li> <input 











< 





lis «input 














feat 





safety 








fetime guarantee" >The prod 
type="checkbox"name="q2"id="q 
the craftsmanship" >The 


to my taste">The 


the product">The prestige or 
<1i><input type="checkbox"name="q2"id="q21 
features">The 
ures</li> 


the product</li> 
type="checkbox"name="q2"id="q2b"val 
uct's lifetime guarantee</li> 








type="checkbox"name="q2"id="q2a"value="The price of 


2c"val 
Ftsman 





the craft 
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lue="The product's 











2d"val 


lue="The quality of 
ship</li> 
ue="The fact that 














type="checkbox"name="q2"id="q 

















fact that it can be customized to my 





type="checkbox"name="q2"id="q2e"value="The prestig 


f owning the product</li> 
F"value-"Th 








safety 


«li- «input type="checkbox"name="q2"id="q2g"value="The on-call 
customer 
service guarantee" The on-call customer service guarantee</li> 


</ul> 
</li> 


<li id="survey3"style="display:none"class="surveynum">Why are you 


terested 
in this product? 
<ul 








| class="nobullet"> 


<li><textarea id="surveytextarea"name="q3"></textarea></li> 
</ul> 
</li> 





结 末 是 在 采用 5 分 制 的 问题 1 的 问答 中 ， 知 受 访 者 选择 其 中 三 个 正面 





答案 中 的 任意 一 个 ， 都 会 显示 一 个 清单 来 帮助 我 们 更 好 地 识别 该 受 访 者 
喜欢 该 产品 的 什么 方面 〈 见 图 2-5) 。 相 反 地 ， 若 受 访 者 选择 两 个 负面 
答案 中 的 任意 一 个 ， 都 会 显示 一 个 文本 区 ， 在 该 文本 区 中 ， 该 受 访 者 可 





以 准确 地 解释 为 什么 他 不 喜欢 这 区 产品 〈 见 图 2-6) 。 

随 着 编程 不 断 进 展 ， 以 上 这 些 都 是 小 儿科 ， 几 乎 不 值 一 提 。 但 是 站 
在 用 户 角 度 其 所 融 来 的 影响 是 微妙 且 有 力 的 。 它 意味 痢 我 们 可 以 通过 对 
话 的 方式 “倾听 ”和 “答复 ”用 户 的 输入 。 它 也 意味 着 由 于 表单 长 度 造成 的 
心理 影响 是 很 低 的 ， 因 为 用 户 最 初 面 对 的 只 是 3 个 问题 的 调查 。 该 调查 
潜在 地 可 以 扩展 到 6 个 问题 ， 但 是 这 些 痢 是 在 用 户 的 “着 陆 页 "发生 的 ， 
而 且 不 需要 用 户 离 开 页 面 ， 因 而 避免 了 强迫 用 户 点 击 类 似 于 “下 一 页 ”的 
按钮 。 

















$002. Please answer a few survey questions 


1. Mow interested would you be to purchase this kind of product? 
Would you say that you: 


Definitely would purchase 
*. Probably would purchase 
Might or might not purchase 
~ Probably would not purchase 
Definitely wouk! not purchase 


2. Which of tho following are extromely important to you? 


(Check up to 3 responses) 


The price of the product 
The product's Ifetime guarantee 
| The quality of the crafismansnip 
The fact tat it can be customized to my taste 
The prestige o! owning the product 
M The safety features 
The on-call customer service guarantee 





图 2-5: 调查 细节 一 一 当 用 户 对 问题 1 回答 “Yes” 时 ( 见 彩 图 8) 


$tep2. Please answer a few survey questions 


1. How interested would you be to purchase this kind of product? 


Would you say that you 


2. Why are you not interested in this product? 





图 2-6: 调查 细节 一 一 当 用 户 对 问题 1 回答 “No ”时 (HAI) 

设计 信任 

为 了 尝试 与 受 访 者 建立 信任 ， 我 们 确实 做 了 一 些 具 体 的 实践 ， 上 暗示 
受 访 者 这 是 一 次 合法 的 调查 ， 而 不 是 惩罚 “ 音 旅 ”。 首 先 ， 我 们 在 Web 调 
查 页 面 的 最 上 方 很 显著 地 展示 了 客户 的 公司 标识 (lgo)。 该 标识 本 身 又 链 
接 到 Urban Wallace Associates 的 主 站 的 “关于 我 们 ”(Aout Us) 页 面 ， 因 此 
参与 者 可 以 很 清楚 他 们 在 和 谁 进行 沟通 。 此 外 ， 我 们 把 调查 页 面 放 在 客 
户 的 主 站 的 子 域名 ， 而 不 是 什么 第 三 方 提供 商 。 

正如 之 前 所 述 ， 我 们 的 客户 所 要 做 的 调查 研究 需要 每 个 受 访 者 在 美 
国有 居住 权 。 但 是 ， 由 于 我 们 告诉 了 每 个 受 访 者 “我 们 不 收集 任何 个 人 
身份 信息 ”， 所 以 询问 受 访 者 居住 在 哪里 会 显得 很 不 适宜 。 对 于 该 问题 
的 解决 策略 是 自动 记录 受 访 者 的 IP 地 址 ， 这 样 可 以 满足 获取 美国 地 理 位 
置 的 需求 ， 而 且 没 有 违背 受 访 者 的 隐私 。 毕 竟 ， 用 户 的 IP 数 据 在 他 或 她 
访问 任何 Web 站 点 的 任何 时 候 都 被 记录 下 来 ; 而 且 在 绝 大 多 数 情 况 下 ， 


























IP 数 据 只 能 用 于 确定 用 户 的 网 络 服务 提供 丙 (IP) 所 在 的 城市 ， 否 则 该 网 
络 服务 提供 商 束 是 匿名 的 。 

我 们 后 来 购买 了 一 份 廉价 的 耳 与 州 的 映射 关系 数据 。 根 据 这 份 数 
据 ， 我 们 可 以 知道 收集 到 的 每 个 下 地 址 在 美国 的 哪个 州 。 虽 然 我 们 可 以 
通过 在 页 面 谋 入 脚本 来 访问 该 数据 库 的 方式 实现 在 收集 数据 的 过 程 中 实 
时 地 对 数字 做 地 理 信息 匹配 ， 但 考虑 到 所 面临 的 实际 情况 ， 我 们 还 是 选 
择 了 半自动 化 匹配 方式 。 在 开始 阶段 ， 项 目 预 算 和 时 间 表 不 能 保证 能 够 
购买 额外 的 服务 器 资源 来 处 理 该 任务 。 但 更 重要 的 是 ， 从 用 户 角度 考 
夸 ， 进 行 实时 匹配 所 带 来 的 延迟 将 不 可 避免 地 成 为 调查 过 程 的 一 部 分 。 

里 然 对 我 们 来 说 ， 能 够 立即 获取 最 终 的 数据 可 能 会 更 方便 ， 但 它 也 
会 给 我 们 的 用 户 融 来 额外 的 不 便 。 当 设计 数据 收集 时 ， 为 了 满足 用 户 需 
求 ， 重 要 的 是 要 考虑 在 调查 过 程 中 ， 服 务 器 首先 必须 完成 哪些 任务 ， 而 
哪些 任务 是 可 以 推 延 到 数据 收集 之 后 再 完成 。 不 要 要 求 用 户 一 一 为 了 你 
一 一 去 做 或 者 去 发 现 你 自己 可 以 做 的 事 。 

以 上 所 有 这 些 都 把 我 们 带 回 到 本 章 的 中 心 ， 也 是 建立 信任 的 最 终 和 
最 核心 方面 章 重 受 访 者 。 通 过 表示 你 对 受 访 者 以 及 她 付出 的 时 间 和 智 
的 尊重 ， 通 过 交谈 对 话 的 方式 和 她 互动 〈 虽 然 事实 上 所 有 的 调查 问卷 
都 是 通过 对 机 器 进行 预 设置 来 完成 的 ) ， 而 且 癌 她 显示 你 一 直 在 “ 倾 
”她 的 回答 例如， 不 要 一 所 又 一 过 地 问 受 访 者 几乎 相同 的 问题 ， 这 
显得 你 没有 注意 听 她 最 初 的 回答 ) ， 这 样 ， 你 将 增加 信任 ， 鼓 励 真 实 
的 回答 ， 而 且 避 免 受 访 者 “ 溜 号 ”。 
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听 
会 


为 精准 的 数据 收集 而 设计 

这 种 讨论 方式 似乎 显得 有 点 “末了 昵 ”， 尤 其 是 对 于 只 与 收集 来 的 那 
些 “ 生 硬 ” 的 数据 打交道 的 人 们 ， 而 不 是 与 生成 这 些 数据 的 人 们 打交道 。 
但 是 ， 所 有 这 些 以 用 户 为 中 心 的 关注 都 不 仅仅 是 礼貌 问题 ， 它 对 于 我 们 
实际 获取 到 的 数据 的 可 靠 性 也 是 至 关 重 要 的 。Roger Urban 的 公司 专长 于 
通过 当面 沟通 、 邮 件 、 电 话 和 类 似 于 本 案例 的 电子 邮件 调查 。“ 对 于 这 
样 的 调查 ，” 他 说 , “你 是 在 处 理 非 常 少量 的 数据 ， 因 此 数据 的 质量 是 非 
常 重 要 的 。? 换 名 话说 ， 如 果 仅 仅 是 基于 几 百 个 人 的 回答 来 做 出 重大 决 
策 ， 那 么 这 些 回答 最 好 是 “优秀 的 ”。 

但 是 , “优秀 的 ”的 回答 并 不 意味 着 是 肯定 的 回答 。 毕 竟 ， 这 是 调 
研 ， 和 科学 家 们 一 样 ， 我 们 想 要 评估 的 是 实际 情况 (对 于 这 款 产品 ， 用 
户 是 否 会 很 关注 其 价格 ? 安全 性 是 否 是 他 们 最 关心 的 ?他 们 实际 上 对 我 
们 的 服务 是 否 满 意 ? ) ， 并 查看 我 们 的 假设 错 在 哪里 。“ 说 服 技巧 对 于 
调研 是 个 灾难 。”Roger Urban 如 是 说 。 人 们 为 了 使 提问 者 高 兴 ， 通 常会 
下 意识 地 通过 回答 他 们 认为 是 提问 者 所 期 望 的 答案 。 

无 论 是 “ 隐 式 ”地 还 是 “ 显 式 ” 地 采用 说 服 技 巧 ， 都 将 会 使 得 你 的 调研 
数据 结果 有 偏差 。“ 如 果 你 想 要 一 份 人 为 地 非常 肯定 的 数据 ，”Urban 
说 ，“ 我 每 次 都 可 以 获取 给 你 。” 但 是 ， 如 果 你 是 在 做 真正 的 商业 决策 或 
者 政治 决策 ， 这 种 数据 又 有 何 用 ? 

动机 

在 数据 收集 期 间 ， 你 不 能 使 用 说 服 技巧 ， 而 在 调研 最 初时 ， 你 又 确 









































实 需要 说 服 受 访 者 参与 。 既 然 没 有 金钱 ， 那 么 对 于 那些 受 访 者 ， 他 们 的 
动机 会 是 什么 呢 ? 

“应 该 总 是 有 一 些 ‘ 好 处 '”，Roger Urban 说 , “即使 该 "好 处 :仅仅 是 : 表 
达 你 的 观点 ”。 人 类 是 有 趣 的 动物 ， 生 冷 僵 硬 的 金钱 可 能 并 不 能 驱使 我 
们 去 做 某 些 事情 ， 反 而 是 一 些 更 “膀胱 ”的 “好 处 ”可 能 会 驱使 我 们 去 做 ， 
比如 一 些 很 得 体 的 “恭维 "。 我 们 都 希望 自己 被 认为 是 专家 ;为 了 证 实 我 
们 的 观点 是 正确 的 ， 可 能 就 足以 说 服 我 们 花 时 间 和 陌生 人 交流 。 另 一 方 
面 ， 通 过 参与 我 们 可 能 可 以 获取 一 些 “ 内 幕 信息 ”、 看 得 更 远 ， 这 些 想法 

也 会 诱惑 我 们 去 和 陌生 人 交流 。 举 个 例子 ， 参 与 一 项 可 以 一 睹 Apple 的 
下 一 个 i-gadget 设 计 的 调查 ， 有 哪个 技术 痴迷 者 会 对 此 不 热衷 呢 ? 

对 于 这 个 项 目 ， 我 们 知道 目标 客户 是 年 纪 较 大 的 受众 群体 。 为 了 使 
邮件 接收 者 参与 调查 ， 初 始 邮 件 的 语言 设置 是 很 重要 的 ， 我 们 团队 在 邮 
件 中 征求 了 受 访 者 的 专业 知识 。 在 我 们 的 第 一 封 邮件 中 ， 我 们 对 同样 多 
的 接收 者 测试 了 两 种 不 同 的 标题 : 

“您 可 以 为 后 代 塑 造 ** 产 品 〈 产 品 信息 被 删除 ) 的 形象 。 

“我 们 正在 寻求 ‘经验 之 声 ?。” 

结果 是 对 于 第 一 个 标题 ， 虽 然 赋予 受 访 者 权利 来 操纵 未 来 的 方向 ， 
相 比 之 下 ， 显 然 被 证 明了 显得 更 短暂 易 逝 和 过 于 无 私 ET, CARE 
其 利益 只 是 给 后 代 ， 而 不 是 受 访 者 本 人 ) ; 而 第 二 个 则 勾 起 人 们 的 自我 
主义 ， 把 她 们 的 年 龄 变 成 积极 的 一 面 〈“ 经 验 >) 。 对 于 第 一 个 标题 ， 有 
12.90% 的 接收 者 收 到 邮件 后 点 击 它 ， 这 些 人 当中 ， 有 16.229% 完 成 了 调 





























查 。 而 对 于 第 二 个 标题 ， 有 14.04% 的 接收 者 收 到 邮件 后 点 击 它 ， 这 些 人 
当中 ， 有 29.59% 的 人 完成 了 调查 。 当 两 周 后 开始 第 二 次 调查 时 ， 所 有 消 
息 的 标题 都 是 “经 验 之 声 ?， 有 27.68% 的 接收 者 打开 邮件 ， 这 些 人 当中 ， 
有 33.16% 的 人 完成 了 调查 。 第 二 次 邮件 也 发 给 了 那些 第 一 次 没有 打开 邮 
件 的 人 们 。(Eail 调 查 的 一 个 秘密 是 : 给 相同 的 邮件 列表 发 送 邮 件 ， 第 二 
次 发 送 通常 会 和 第 一 次 发 送 收 到 同样 多 的 答复 。) 

用 户 体验 哲学 上 值得 记 住 的 另 一 方面 是 : 对 一 切 都 进行 测试 。 在 这 
种 情况 下 ， 甚 至 是 对 你 的 测试 方法 进行 测试 ! 当 你 有 时 间 和 资源 时 ， 要 
对 不 同 的 副本 、 不 同 的 布局 和 不 同 的 交互 设计 类 型 进行 测试 ， 而 且 这 些 
都 是 基于 和 实际 用 户 进行 的 测试 。 

报告 即时 数据 结 

在 我 们 的 项 目 中 ， 一 个 特殊 的 考虑 是 结果 数据 的 接收 者 ， 即 客户 ， 
也 会 成 为 系统 的 用 户 ， 他 们 和 那些 调查 参与 者 有 着 显著 不 同 的 需求 。 

由 于 该 项 目 时 间 紧 迫 ， 客 户 为 了 确定 该 产品 是 否 普遍 受 欢 迎 ， 需 要 
快速 看 到 调查 结果 。 对 于 这 种 应 用 背景 ， 我 们 的 解决 方案 是 采用 一 个 
HTML 页 面 显 示 数 据 ， 客 户 可 以 访问 该 页 面 ， 其 数据 通过 最 少 的 格式 化 
进行 简单 排序 。 即 时 、 原 始 的 调查 结果 首先 通过 邮件 列表 来 排序 (其 中 
每 个 标题 都 发 送 给 两 个 邮件 列表 ， 年 龄 段 分 别 是 在 55~~64 岁 和 65~~75 
岁 ) ， 然 后 是 通过 人 们 对 第 一 个 问题 ， 即 是 否 对 该 产品 感 兴趣 所 做 出 的 
Yes/No 回 答 。 需 要 说 服 调查 参与 者 来 参与 调查 并 完成 表单 填写 ， 而 和 这 
些 参与 者 所 不 同 的 是 ， 客 户 和 希望 的 是 能 够 尽快 看 到 生成 的 数据 结果 。 对 



































于 客户 ， 速 度 和 对 即时 结果 的 即时 访问 比 其 他 任何 因素 都 要 重要 。 因 
此 ， 客 户 在 用 户 体验 上 反映 了 以 下 这 些 优先 级 〈 见 图 2-7) 。 
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图 2-7: 在 这 个 即时 数据 报告 屏幕 上 ， 随 着 数据 的 流入 ， 客 户 可 以 看 


到 调查 结果 
当然 ， 最 后 交付 的 不 是 这 种 原始 数据 的 展示 。 在 项 目 完 成 时 ， 我 们 
向 客户 展示 的 是 完全 可 排序 的 Excel 表 格 ， 这 些 表格 包含 我 们 收集 到 的 
所 有 数据 (总 共 包 含 8 个 邮件 列表 ， 通 过 两 次 批量 发 送 的 方式 ) ， 包 括 
在 调查 时 还 没有 生成 的 关于 所 在 美国 的 哪个 州 的 地 理 位 置 数据 。 
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最 后 ， 我 们 付出 的 这 些 努 力 都 是 值得 的 吗 ? 这 仅仅 是 一 个 Web 表 
单 ， 不 是 吗 ? 人 们 每 天 都 在 填写 数 百 万 的 表单 。 有 些 人 可 能 会 认为 我 们 
根本 就 不 需要 考虑 如 何 设计 一 一 创建 一 个 可 用 的 Web 表 单 的 问题 早已 经 
解决 了 ， 而 且 是 一 劳 永 逸 的 。 但 是 你 永远 都 不 应 该 低估 在 解决 最 普通 的 
设计 问题 上 所 缺乏 的 努力 ， 尤 其 是 在 线 的 设计 问题 。 现 在 绝 大 多 数 的 表 
单 和 20 世 纪 90 年 代 的 表单 相 比 ， 并 没有 太 大 区 别 。 

此 外 ， 如 果 有 一 件 事 是 一 名 优秀 的 设计 师 应 该 清楚 的 ， 尤 其 是 对 于 
一 名 遵循 用 户 体验 规范 的 设计 师 ， 那 就 是 不 存在 "一刀切 ?” 式 的 解决 方 
案 。 为 你 的 用 户 群 体 采 取 定 制 方式 几乎 总 是 会 提高 用 户 体验 ， 而 且 是 针 
对 数据 收集 这 种 类 型 来 说 。 

对 于 我 们 的 客户 的 情况 ， 从 结果 上 看 ， 付 出 的 努力 是 值得 的 。 我 们 
了 解 到 ， 该 电子 邮件 营销 公司 以 前 的 推广 活动 中 ， 通 常 打开 其 邮件 的 概 
率 在 1%~~2%， 而 我 们 的 邮件 打开 概率 高 达 4%。 对 于 打开 的 邮件 ， 通 常 
完成 点 击 的 概率 在 5% 一 7%， 而 我 们 的 则 高 达 21%。 最 重要 的 是 ， 对 于 
这 些 执行 点 击 操 作 ， 跳 到 Web 页 面 ， 继 续 操 作 (例如 完成 表单 ) 的 概率 
FE2%~5%; 而 对 于 我 们 的 设计 ， 其 完成 概率 是 299%《〈 见 图 2-8) 。 
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图 2-8: 我 们 的 调查 答复 概率 要 显著 高 于 正常 情况 的 答复 概率 ， 这 妆 
功 于 更 好 的 总 体 用 户 体 验 

当然 ， 这 次 调查 比 该 公司 之 前 的 邮件 调查 收效 好 得 多 ， 但 是 也 存在 

其 他 可 能 的 原因 。 可 能 是 因为 该 产品 比 该 公司 之 前 为 其 他 产品 或 话题 开 

展 的 调查 更 加 吸引 人 ， 而 且 可 能 是 该 产品 给 人 们 带 来 的 兴奋 之 情 使 得 更 

多 人 能 够 参与 到 最 后 ;也 可 能 是 预选 的 接收 者 比 通常 的 要 准确 得 多 ， 而 

有 目 这 些 接收 者 特别 适合 该 产品 ， 甚 至 可 能 还 存在 年 龄 上 的 偏见 ， 认 为 是 











年 龄 在 起 作用 一 一 年 纪 大 的 计算 机 用 户 比 年 轻 的 用 户 更 有 可 能 会 打开 邮 
件 、 阅 读 这 些 邮 件 、 点 击 进入 、 完 成 调查 ， 而 年 轻 的 用 户 是 否 可 能 更 精 
明 ， 而 且 对 于 不 请 自 来 的 邮件 更 加 谨慎 ?我们 不 了 解 对 于 该 主题 的 任何 
研究 ， 但 它 是 一 种 可 能 性 。 实 际 上 ， 虽 然 我 们 不 能 完全 排除 这 些 解 释 中 
的 任何 一 个 ， 但 是 电子 邮件 公司 为 我 们 这 次 调查 所 做 的 似乎 并 没有 和 他 
们 之 前 为 其 他 几 百 个 调查 所 做 的 有 什么 区 别 。 因 此 ， 很 有 可 能 可 以 下 这 
样 一 个 结论 : 该 项 目的 成 功 和 我 们 的 表单 设计 有 关系 。 

顺便 说 一 下 ， 虽 然 这 和 该 调查 的 设计 没有 什么 关系 ， 不 过 也 许 你 还 
是 会 对 此 感 兴趣 ， 那 就 是 受 访 者 对 该 产品 本 身 的 反馈 非常 积极 正面 。 虽 
然 客户 告诉 我 们 的 是 如 果 有 10% 的 正面 答复 概率 〈 即 对 第 一 个 调查 问题 
的 回答 是 “Yes”) ， 就 可 以 推出 该 产品 ， 而 结果 是 超过 16% 的 受 访 者 潜 
在 地 对 于 购买 该 产品 颇 感 兴趣 。 这 究竟 是 一 款 什 么 样 的 产品 呢 ? 遗憾 的 
是 ， 保 密 协 议 禁止 我 们 对 本 次 调查 透露 更 多 信息 。 

如 果 你 想 “ 订 眼目 睹 ”这 款 产 品 ， 你 只 能 期 望 能 够 参与 到 下 一 次 的 电 
子 邮 件 调查 中 。 不 要 过 快 地 把 这 些 电子 邮件 扔 到 垃圾 箱 中 ;， 至少， 你 可 
以 学 到 关于 表单 设计 的 一 些 好 的 或 者 差 的 方面 。 

















第 3 革 ”火星 上 的 租 入 式 图 像 数据 处 理 
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摘要 





太空 飞行 器 是 独特 的 工程 项 目 ， 其 受到 的 约束 和 要 满足 的 需求 是 地 
球 上 的 任何 物体 所 不 具备 的 。 它 们 必须 能 够 承受 极端 恶劣 的 气温 极限 、 
完全 的 真空 空间 和 强烈 的 辐射 ， 而 且 其 重量 必须 足够 轻 ， 以 便 可 以 用 火 
第 将 它们 载 入 太空 并 发 送 到 其 目的 地 。 太 空 飞行 器 是 应 用 了 极 简 主 义 的 
一 项 “运动 * 只 有 完成 任务 所 必需 的 (设备 ) ， 没 有 丝 坚 多 余 。 所 有 方 
面 的 设计 都 将 测试 以 下 几 个 方面 必要 性 、 重 量 和 成 本 。 在 发 射 之 前 ， 
一 切 都 要 经 过 测试 、 再 测试 式 计 算 
机 系统 及 其 上 面 运行 的 软件 。 本 半 将 概述 凤凰 写 火 星 着 陆 探 测 右 (Poenix 
landeD 的 图 像 处 理 软件 如 何 获取 、 存 储 、 处 理 图 像 数据 以 及 最 终 如 何 再 
把 图 像 发 送 回 地 球 。 
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人 们 在 设计 和 编程 实现 一 套 嵌 入 式 系统 时 ， 会 受到 很 多 约束 条 件 。 
这 些 约 束 包 括 处 理 器 速度 、 执 行 期 限 、 人 允许 中 断 的 延迟 时 间 以 及 内 存 约 
束 等 。 由 于 太空 飞行 的 使 命 ， 这 些 约束 条 件 会 变 得 很 严酷 。 通 常 ， 在 太 
空 飞行 器 上 的 计算 机 只 使 用 非常 昂贵 的 能 够 抗 辐射 的 内 存 。 它 的 中 央 处 
理 器 (CU)， 通 常 也 是 经 过 专门 设计 的 设备 ， 因 为 它 需要 承受 高 能 量 宇宙 
射线 的 破坏 性 影响 。 从 商业 标准 来 看 ， 其 CPU 运行 速度 并 不 快 ， 而 只 是 
典型 的 抗 辐射 电子 设备 。 这 其 中 的 权衡 是 速度 和 被 一 个 星际 粒子 直接 击 
中 后 还 能 不 断 运转 的 能 力 。 例 如 ， 一 台 典 型 的 PC 机 里 的 双核 CPU 将 在 太 
空中 无 法 长 时 间 正 常 运转 ( 同 理 ， 该 PC 机 的 其 他 大 部 分 电子 设备 也 不 
会 正常 运转 ) 。 

还 有 一 些 科学 目标 ， 它 们 驱动 着 软件 的 功能 和 性 能 需求 。 所 有 需求 
必须 满足 太空 飞行 器 的 计算 环境 的 约束 条 件 。 经 过 无 数 次 的 权衡 抉择 之 
后 ， 最 终 产 品 必 须 能 够 运转 ， 而 且 在 飞行 任务 期 间 不 能 出 现 致命 的 错 
误 。 因 为 ， 对 于 机 器 人 太空 飞行 器 ， 任 何 错误 都 足以 导致 飞行 任务 非 正 
常 终止 ， 所 以 ， 在 点 燃 火 箭 、 飞 向 蓝天 之 前 ， 有 必要 保证 所 有 的 方面 都 
是 正确 的 。 

在 2008 年 5 月 25 日 ， 凤 凰 号 火星 探测 器 安全 降落 在 火星 的 北极 地 区 。 
图 3-1 是 一 位 艺术 家 所 画 的 凤凰 号 着 陆 效 果 图 。 和 巡游 在 火星 亦 道 附近 
相对 温暖 的 地 区 的 探测 器 不 同 ， 凤 凰 号 探测 器 是 位 于 贫 状 荒 岛 上 的 一 个 
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不 上 是 一 个 理想 的 度假 胜地 ， 但 却 是 一 个 寻找 古代 固态 水 的 好 地 方 。 











图 3-1: 凤凰 号 火星 探测 器 在 火星 上 的 着 陆 效 果 图 (图 像 来 源 : X 
国航 空 航天 局 和 喷气 推进 实验 室 NASA/JPL， 见 彩 图 10) 

该 探测 器 的 任务 是 寻找 可 以 证 明 水 存在 的 直接 证 据 一 一 可 能 在 火星 
表面 下 以 冰 的 形态 存在 顺便 提 一 下 ， 探 测 器 找到 了 冰 〉 ， 以 及 能 够 说 
明火 星 曾 经 提供 了 适合 生命 的 栖息 地 的 证 据 。 由 于 飞行 器 的 着 陆 点 的 位 
置 靠近 极地 ， 它 的 寿命 是 有 限 的 ; 当 火 星 的 冬季 来 临时 ， 凤 凰 号 几乎 肯 
定 会 结束 “生命 “。 在 高 纬度 的 着 陆 点 ， 该 探测 器 在 一 个 完全 黑暗 的 、 被 
固态 二 氧化 碳 所 覆盖 的 极 寒冷 的 〈-90'C 或 者 更 冷 ) 冬天 下 存活 的 机 会 
是 非常 非常 渺茫 的 。 


我 是 凤凰 号 探测 堆 的 成 像 软件 的 首席 软件 工程 师 。 在 本 章 中 ， 我 将 














分 享 在 设计 凤凰 号 火星 探测 器 的 成 像 飞 行 软件 的 各 种 各 样 的 数据 处 理 策 
略 的 过 程 中 所 做 的 一 些 思 考 。 因 为 该 软件 负责 处 理 在 火星 表面 的 所 有 成 
像 相 关 的 任务 ， 又 具备 “飞行 软件 ”的 使 合 ， 所 以 在 喷气 推进 实验 室 / 美 国 
航天 局 (JIL/NASAI) 的 术语 中 ， 该 成 像 软件 又 称 为 "成像 飞行 软件 ”。 

对 于 凤凰 号 火星 着 陆 探 测 器 ， 其 面临 的 挑战 是 同时 捕获 并 处 理 四 个 
感光 元 件 (carge-coupled device,CCD) 成 像 器 的 数据 (类 似 于 普通 的 数码 
相机 的 功能 ) ， 而 且 所 有 这 些 操作 都 是 在 探测 器 的 主 计算 机 预 分 配 的 非 
常 有 限 的 内 存 中 完成 。 不 仅 如 此 ， 图 像 可 能 还 需要 在 传输 回 地 球 之 前 使 
用 一 个 或 几 个 不 同 的 压缩 方法 进行 压缩 。 此 外 ， 一 些 最 终 的 数据 产品 
《 即 图 像 ) 需要 被 细 分 为 不 同 的 分 段 ， 每 个 分 段 都 有 自己 序列 化 的 数字 
数据 头 ， 这 种 方式 可 以 满足 高 效 存储 在 太空 飞行 器 的 内 存 中 ， 并 且 当 数 
据 包 从 火星 传 到 地 球 时 ， 可 以 减少 数据 包 丢 失 等 原因 所 造成 的 数据 量 的 
丢失 。 最 终生 成 的 租 入 式 代 码 ， 在 凤凰 号 火星 着 陆 探测 器 正常 运转 的 生 
命 周 期 内 ， 获 取 并 处 理 了 超过 25000 张 的 图 像 。 
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在 我 们 深入 了 解数 据 处 理 之 前 ， 最 好 简单 地 介绍 一 下 “戏剧 的 主 
fü": 成 像 器 《〈 也 称 为 照相 机 ) 和 太空 飞行 器 的 计算 机 。 

凤凰 号 火星 着 陆 探 测 器 的 主 计算 机 的 CPU 是 一 个 RAD6000， 其 最 大 
时 钟 率 为 20MHz， 男 外 它 也 能 够 以 较 低 的 时 钟 率 来 运行 ， 以 节省 电池 能 
量 。 这 其 中 没有 什么 尖端 的 技术 ， 只 是 一 台 防 辐射 的 、 把 内 存 和 闪存 都 
混合 在 VME 电 路 板 的 第 一 代 PowerPC。CPU 完 成 处 理 着 陆 任务 后 ， 它 的 
主要 功能 是 和 地 球 通信 “〈 用 专业 术语 来 说 ， 就 是 上行 和 下 行 ”， 接 下 来 
将 会 详细 介绍 ) ， 监 测 太空 飞行 器 的 健康 状况 ， 通 过 从 地 球 上 发 送 的 各 
种 命令 来 协调 各 种 科学 设备 的 运行 活动 。 它 采用 了 WindRiver 公 司 的 
VxWorks 实 时 操作 系统 (ROS)， 以 及 太空 飞行 器 承包 了 商 Lockheed Martin 
公司 提供 的 各 种 扩展 软件 。 所 有 的 飞行 软件 都 是 用 C 语 言 实现 的 ， 代 码 
编写 遵循 一 组 特定 的 规范 。 

















“EAT? FAT” 

从 太空 飞行 任务 的 专业 角度 来 看 ， 术 语 “ 上 行 de FIP MR 
在 地 面 和 太空 飞行 器 的 控制 器 之 间 传 送 数 据 或 命令 。 “上 行 ” 指 的 是 传 
送 命令 或 者 数据 到 太空 飞行 器 。 “下行 ”发 生 在 太空 飞行 器 向 地 面 发 送 
回 数据 。 

正如 生活 中 的 许多 事情 ， 指 向 飞行 器 顶部 的 天 线 并 点 击 “Push To 
Talk" (ITE) 按钮 ， 从 来 就 不 是 一 件 很 简单 的 事情 。 “上行 ” 的 数据 


是 通过 一 些 模拟 来 确保 一 切 都 准确 无 
命令 控制 器 ， 当 存在 “上 行 ”任务 
时 ， 该 控制 器 将 会 调度 该 任务 (或 者 用 太空 术语 来 说 ， 即 “ 辐 
射 ”(rdiated)) 。 最 后 ， 这 些 数 据 进 入 NASA 的 Deep Space Network(DSN) 
通信 系统 ， 并 从 太空 中 辐射 出 来 。 但 这 并 非 最 后 一 步 ， 因 为 对 于 凤凰 号 
探测 器 ， 它 还 必须 通过 绕 火 星 轨 道 飞行 的 人 造 卫星 进行 中 转 ， 因 为 凤凰 
号 探测 器 本 身 无 法 直接 和 地 球 通信 。 当 该 人 造 卫 星 运行 到 火星 水 平 线 
时 ， 凤 凰 号 探测 器 将 会 监听 新 的 “上 行 ” 数据 。 
-下行 ”也 一 样 错综复杂 。 同 样 地 ， 需 要 人 造 卫 星 作为 中 继 ， 从 凤 

凰 号 探测 器 接收 数据 ， 然 后 把 这 些 数据 传送 回 在 地 球 上 的 NASA 的 其 中 
一 个 DSN 接 收 天 线 。 然 后 ， 将 会 对 这 些 数据 进行 各 种 处 理 和 中 转 操作 ， 
直到 把 它们 最 终 保存 在 JPL。 如 果 是 图 像 数 据 ，JPL 的 Mission 图 像 处 理 实 
验 室 将 会 对 这 些 图 像 重新 组 合 ， 提 供给 Atizona 大 学 的 科学 运作 中 心 的 那 
些 热 切 期 待 数据 的 科学 研究 团队 。 

凤凰 号 火星 着 陆 探 测 器 包含 三 个 主要 的 照相 机 来 完成 表面 科学 成 
像 : 立体 表面 成 像 器 (Sereo Surface Imager,SSI， 有 两 个 CCD 感 光 元 
ft» 、 机 械 臂 成 像 器 (Rbotic Arm Camera,RAC， 只 有 一 个 CCD 感 光 元 
件 ) 、 唱 体 管 光学 显微镜 (MCA Optical Microscope,OM) 成 像 器 (同样 ， 
有 一 个 和 RAC 相 同 的 CCD)。 图 3-2 显 示 了 立体 表面 成 像 器 SSI 的 飞行 模 
型 ， 图 3-3 显 示 了 连接 到 机 械 臂 的 机 械 臂 成 像 器 RAC。 光 学 显微镜 放置 
在 唱 体 管 装置 的 内 部 ， 它 本 身 看 起 来 像 是 着 陆 器 甲板 表面 上 的 一 个 黑 盒 
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设计 时 所 面临 的 挑战 是 设计 一 种 方式 ， 用 以 完成 以 下 几 个 步骤 的 处 
H: 从 每 个 照相 机 上 下 载 图 像 数据 ;把 数据 保存 在 一 个 预 分 配 的 内 存 空 
间 ， 对 数据 进行 处 理 ， 删 除 已 知 的 像素 点 缺陷 ， 修 剪 或 者 扩展 图 像 ， 根 
据 命 令 行 参数 进行 压缩 ， 然 后 对 图 像 进行 切片 和 切 块 (sice-and-dice)， 把 
图 像 切 分 成 各 个 数据 包 ， 把 这 些 数据 包 传 送 给 主机 的 “下 行 *(dwnlink) 管 
理 任务 ， 从 而 传输 回 地 球 。 

在 立体 表面 成 像 器 SSI 中 ， 每 1024x1024 像 素 的 CCD 感 光 元 件 能 够 生 
成 2MB 的 数据 ， 或 者 是 100 万 个 12 位 像素 的 数据 。 因 为 SSI 是 一 台 真 正 的 
立体 照相 机 ， 它 的 成 像 器 通常 叫做 “眼睛 ”"。 而 且 ，SSI 看 起 来 确实 有 点 
像 老 式 的 机 器 人 脑袋 。 机 械 辟 成 像 器 RAC 和 晶体 管 光 学 显微镜 成 像 器 
OM 每 个 都 包含 一 个 512x256 像 素 的 CCD 感 光 元 件 成 像 器 ， 每 个 成 像 器 
生成 131072 或 262144 字 节 ) 个 像 系 的 数据 (从 现在 开始 ， 对 于 这 两 台 
成 像 器 ， 我 都 将 称 之 为 RAC/OM， 因 为 从 成 像 软 件 角度 出 发 ， 它 们 是 完 
全 一 样 的 成 像 器 ) 。 实 际 上 ，CCD 成 像 器 的 每 个 像素 只 占用 12 位 的 空 
间 ; 标准 内 存 的 一 个 “ 字 ” 长 是 16 位 。 如 何 处 理 剩余 的 4 个 未 使 用 的 位 ， 
在 设计 阶段 引发 了 一 些 有 趣 的 讨论 ， 这 些 讨论 我 将 在 下 章 中 讨论 。 
SSI、RAC 和 OM 生成 的 所 有 图 像 都 是 单 色 的 ， 没 有 彩色 的 图 像 。 彩 色 图 
片 是 由 在 地 球 上 使 用 过 滤器 或 者 特殊 的 照明 技术 ， 获 取 到 独立 的 图 像 进 
行 合成 而 来 的 。 























图 3-2: 立体 表面 成 像 器 (图像 来 源 : Arizona X 3 /NASA/]PL, JU 
E11) 
必须 指出 的 是 ， 虽 然 成 像 软件 控制 OM CCD 来 获取 图 像 ， 但 该 软件 
和 晶体 管 (MCA) 设 备 、 光 学 显微镜 本 身 的 电子 机 械 控 制 并 没有 关系 。 后 
二 者 的 控制 是 由 JPL 的 MECA 团 队 实现 的 一 个 独立 的 实时 任务 来 负责 处 
FE. 
虽然 以 当前 消费 者 的 数字 照相 机 的 标准 来 看 ， 凤 凰 号 火星 着 陆 探 测 
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门 定制 的 。 照 相机 中 的 每 个 CCD 感 光 元 件 设备 都 花费 了 数 万 美元 ， 而 且 
生产 制造 的 数量 有 限 。 这 些 设 备 可 靠 、 健 壮 而 且 精 确 ， 而 且 每 台 CCD 都 
进行 了 全 面 地 测试 ， 而 且 为 敏感 度 、 噪 音 和 缺陷 等 做 了 像素 级 别 (pxel- 
by-pixel) 的 特性 定制 。 正 是 这 种 特殊 级 别 的 特性 化 以 及 CCD 生 成 的 参考 
数据 ， 把 科学 的 CCD 设 备 和 消费 者 使 用 的 普通 照相 机 区 别 开 。 精 确 的 特 
性 化 使 得 研究 人 员 对 图 像 数 据 能 够 精确 地 表现 照相 机 所 捕获 的 镜 尖 充满 
目 信 。 但 是 它 也 是 影响 CCD 代 价 的 主要 因 了 又。 











图 3-3: 机 械 导 照相 机 (Rbotic Arm Cameta， 图 像 来 源 : Arizona X. 


学 /Max Planck/NASA/JPL) 


数据 是 合 打包 








对 于 任何 高 度 受 限 的 嵌入 式 系统 ， 其 软件 需要 同时 满足 操作 需求 和 
执行 环境 的 约束 条 件 。 正 如 人 们 可 能 预期 的 那样 ， 这 些 约束 条 件 往 往 并 
非 总 是 互补 的 ， 因 此 在 设计 实现 过 程 中 ， 需 要 做 出 一 些 权衡 决策 。SSI 
和 RAC/OM 照 相机 都 使 用 了 12 位 的 转换 或 像素 数据 ， 这 市 来 了 我 们 的 首 
次 主要 的 权衡 决策 : 数据 打包 。 对 于 二 进 制 数据 的 概述 ， 请 参阅 后 面 
的 “二 进 制 数 据 ” 部 分 。 

在 任务 的 早期 设计 阶段 ， 大 家 产生 了 对 12 位 像素 数据 进行 打包 的 想 
法 ， 还 引发 了 一 些 有 趣 的 争论 。 由 于 只 有 有 限 的 内 存 可 用 于 图 像 数 据 存 
储 ， 对 12 位 像素 的 数据 进行 打包 存储 在 16 位 的 内 存 空 间 中 ， 这 个 想法 还 
是 很 吸引 人 的 。 这 里 的 “打包 ”， 指 的 是 对 这 些 12 位 像素 的 数据 进行 连续 
存储 ， 在 这 些 位 中 间 不 “浪费 ”任何 空间 一 一 实际 上 就 是 忽略 16 位 的 内 存 
边界 限制 。 但 是 更 高 效 的 数据 存储 换 来 的 代价 是 处 理 时 间 变 长 〈 解 包 、 
移 位 和 重新 打包 ) 。 一 个 数字 图 像 就 是 一 个 数组 〈 该 图 像 需 要 作为 一 维 
数组 处 理 还 是 二 维 数组 处 理 ， 依 赖 于 需要 在 它 上 面 完成 哪些 操作 ) ， 因 
此 ， 在 图 像 上 的 任何 操作 需要 利用 对 数组 的 一 个 或 多 个 算法 循环 来 处 理 
其 图 像 数 据 。 我 们 期 望 通过 RAD6000 处 理 的 数据 量 非常 大 ， 因 此 ， 即 便 
是 在 20MHz 的 时 钟 频 率 下 ， 即 计算 每 个 CPU 循环 时 间 ， 该 速度 也 将 是 慢 
得 让 人 无 法 接受 。 

最 后 ， 我 们 决定 “浪费 ”一 些 内 存 空 间 ， 把 12 位 的 像素 存放 在 16 位 的 


内 存 空间 ， 使 得 处 理 简 单 ， 避 免 占 用 任何 不 必要 的 CPU 资源 。 这 个 决定 
也 是 由 以 下 早期 的 想法 所 驱动 ， 即 通过 就 地 执行 所 有 的 图 像 处 理 和 压缩 
操作 ， 避 免 使 用 多 个 大 的 处 理 缓 存 或 者 结果 数组 。 如 果 对 数据 打包 ， 将 
会 使 得 就 地 执行 这 些 操作 变 得 异常 困难 ， 而 且 最 终 代 码 也 将 会 变 得 过 
复杂 ， 导 致 整个 我 们 想 要 实现 的 就 地 处 理 的 想法 都 变 得 不 可 行 。 
二 进 制 数 据 

数据 即 信息 。 在 计算 机 系统 中 ， 它 是 通过 数值 来 表示 的 ， 因 为 计算 
机 CPU 所 处 理 的 就 是 数值 。 数 据 能 够 表示 文本 ， 在 该 文本 中 ， 每 个 字符 
有 一 个 唯一 的 数值 ， 或 者 通过 对 每 个 像素 或 者 图 片 元 素 进行 编码 来 表示 
图 像 ， 在 一 个 图 像 中 ， 由 一 个 数值 表示 它 的 强度 、 顾 色 以 及 这 二 者 特征 
的 组 合 。 给 定 一 个 合适 的 数值 编码 方案 ,计算 机 可 以 处 理 一 个 人 可 以 想 
象 到 的 任何 类 型 的 数据 ， 包 括 音频 、 电 位 、 文 本 、 图 像 黄 至 是 定义 猫 和 
狗 区 别 的 一 组 不 同 特征 。 但 是 不 论 数值 表示 的 是 什么 数据 ， 对 计算 机 而 
言 ， 它 们 都 仅仅 是 数字 。 我 们 提供 规则 来 说 明 该 数字 应 该 如 何 编码 、 处 








理 、 显 示 和 解释 。 

数据 有 不 同 的 大 小 值 ， 该 值 取决 于 其 表示 的 是 什么 。 举 个 例子 ， 一 
扇 窗户 或 者 一 个 防盗 报警 系统 的 门 锁 只 需要 1 位 〈 或 一 个 二 进 制 数 ) 来 
表示 其 可 能 的 两 种 状态 : 开 或 关 ， 即 0 或 1。 为 了 表示 一 个 英语 字母 或 者 
发 音 ， 需 要 100 个 左右 的 数字 ， 每 个 数字 通过 8 位 的 数据 来 表示 。 现 代 计 
算 机 通过 二 进 制 形式 工作 ， 因 此 8 位 可 以 表示 从 0 一 255 的 任何 一 个 数字 
(如 110010002=20010) 。 在 很 多 计算 机 中 ， 有 更 合适 的 形式 来 表示 二 


制 数 值 ， 如 典型 的 八进制 或 者 十 六 进 制 。 对 于 16 位 或 32 位 的 CPU ， 正 如 
凤凰 号 火星 着 陆 探测 器 所 采用 的 ， 内 存 可 以 通过 16 位 的 字 长 方式 来 高 效 
访问 。 想 要 访问 低 于 16 位 (如 8 位 ) 的 字 长 方式 ， 其 效率 实际 上 可 能 会 

很 低 ， 因 此 对 于 大 于 8 位 而 又 小 于 16 位 的 数据 ， 通 常 都 是 以 16 位 字 长 的 

内 存 方式 来 存储 ， 有 几 位 没有 使 用 。 这 正 是 凤凰 号 火星 着 陆 探测 器 所 处 
理 数 据 的 方式 ， 因 为 CCD 成 像 器 的 电子 设备 每 个 像素 生成 的 是 12 位 的 数 
据 ， 而 飞行 器 的 内 存 是 通过 16 位 或 32 位 的 存储 方式 组 织 的 
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对 于 凤凰 号 火星 着 陆 探 测 器 所 采用 的 VxWorks 实时 操作 系统 环境 ， 
实际 上 确实 没有 什么 方面 是 和 普通 的 计算 机 用 户 可 能 会 想到 的 某 个 项 目 
相同 。 不 在 磁盘 上 加 载 任何 东西 〈 不 存在 磁盘 ) ， 而 且 当 系统 初次 启动 
时 ， 计 算 机 所 做 的 每 件 事 都 被 加 载 到 内 存 中 。 该 实时 操作 系统 实际 上 只 
是 一 个 大 程序 ， 包 含 很 多 几乎 同时 在 运行 的 较 小 的 子 程序 。 这 些 较 小 的 
子 程序 又 称 为 任务 或 线程 ， 基 于 以 下 因素 来 执行 : 资源 的 可 达 性 ， 如 时 
间 事 件 或 者 WO 输入 /输出 ) 设备 ， 这 些 子 程序 在 更 大 范围 中 被 分 配 的 
优先 级 “优先 级 高 的 任务 比 优先 级 低 的 任务 能 够 获取 更 多 的 机 会 运 
行 ) 。 

一 开始 就 显而易见 ， 对 于 表面 图 像 处 理 ， 至 少 需要 完成 两 项 任务 ， 
每 台 照 相机 完成 一 项 任务 。SSI 成 像 器 和 RAC/OM 成 像 器 有 很 大 区 别 ， 
它们 包含 不 同 的 命令 集 和 操作 特征 。SSI 使 用 所 有 新 的 控制 器 硬件 ， 并 

且 结合 了 和 那些 用 于 Mars Rovers (译注 : 火星 巡游 嚣 〉 完 全 一 样 的 CCD 
成 像 器 。RAC 和 OM 成 像 器 最 初 是 由 德国 的 Max Planck 研 究 所 建立 的 ， 
而 且 已 经 应 用 了 一 段 时 间 (其 中 一 个 最 初 设计 应 用 于 Huygens 探 测 器 
在 Titan 着 陆 ) 。RAC/OM 控 制 占 人 硬件 实际 上 是 命运 多 外 的 Mars'98 任 务 
中 的 飞行 器 备用 设备 ， 当 其 飞行 器 引擎 在 火星 表面 上 方 儿 百 英 尺 处 不 正 
常 终止 时 ， 该 控制 器 也 结束 了 其 “悲惨 的 命运 ”。 但 是 从 每 个 照相 机 获取 
的 数据 仍然 需要 处 理 、 压 缩 ， 然 后 “下 行 ”( 同 地 面 传输 ) ， 而 且 这 些 操 














作 并 不 依赖 于 物理 数据 源 。 图 像 数据 的 每 个 像素 都 是 12 位 ， 这 些 数据 中 
真正 有 区 别 的 是 几何 信息 《高 度 和 宽度 ) ， 以 及 最 终 需 要 处 理 的 图 像 数 
据 量 。 

虽然 太空 飞行 器 集成 团队 (Lckheed Mar-tin) 期 望 保 持 科学 设备 的 任务 
数量 是 最 少 的 ， 在 早期 就 显而易见 ， 在 两 个 照相 机 任务 中 都 重复 相同 的 
图 片 压缩 和 “下 行 ” 功 能 并 没有 多 大 意义 。 由 于 程序 的 存储 空间 有 限 ， 这 
种 重复 操作 会 浪费 资源 ， 因 此 ， 对 代码 做 必要 的 修改 ， 然 后 验证 这 些 修 
改 可 以 达到 事半功倍 。 最 后 ， 我 们 达成 的 一 致意 见 是 使 用 三 个 任务 : 一 
个 任务 处 理 SSI， 另 一 个 任务 处 理 RAC 和 OM 照相 机 (这 两 个 任务 不 能 后 
时 执行 ， 因 为 接口 硬件 不 多 许 它们 同时 执行 ) ， 第 三 个 任务 将 作为 共享 
资源 ， 利 用 由 两 台 照 相机 的 控制 任务 所 生成 的 数据 ， 执 行 图 像 压 缩 
和 “下 行 ”处 理 ， 因 而 它 是 异步 运行 的 。 因 此 ， 虽 然 SSI 和 RAC/OM 任 务 
通过 控制 电子 设备 来 获取 图 像 数 据 、 控 制 照相 机 的 内 部 温度 、 执 行 运动 
控制 ， 第 三 个 任务 仅仅 完成 图 像 数 据 处 理 和 “下 行 ”操作 。 

图 像 处 理 任务 被 称 为 ICS,ICS 代 表 图 像 压 缩 子 系统 (Iage Compression 
Sub-System)， 虽 然 该 子 系统 最 终 不 仅仅 只 是 压缩 图 像 数据 。 图 3-4 中 显 
示 了 三 个 任务 的 流程 框图 以 及 它们 之 间 的 通信 。 

使 用 三 个 任务 的 决策 确实 增加 了 系统 的 复杂 性 ， 但 它 也 减少 了 需要 
的 程序 存储 空间 。 作 为 额外 的 补充 ， 有 第 三 个 独立 的 任务 使 得 改变 一 个 
特定 的 ICS 处 理 功 能 变 简单 得 多 ， 然 后 通过 使 用 真正 的 照相 机 硬件 ， 对 
从 任何 一 个 成 像 任 务 获 取 的 数据 或 者 是 采用 模拟 的 图 像 数 据 源 ， 对 这 些 























功能 进行 测试 。 这 些 测试 ， 对 于 后 期 对 项 目 做 更 多 的 扩展 压缩 测试 是 极 
有 好 处 的 ; 当 超 过 15000 个 的 测试 图 像 通过 ICS 被 连续 处 理 ， 同 时 使 用 目 
动 化 测试 验证 其 操作 。 

ICS 也 包含 两 种 资源 模块 ， 它 包含 静态 和 内存 管 理 〈 也 称 为 " 槽 管理 ”) 
和 图 像 处 理 〈 取 样 、 子 图 定位 、 像 素 缺 陷 纠 正 等 ) 。 这 些 实际 上 并 非 
ICS 任 务 的 一 部 分 ， 而 是 作为 线程 安全 的 伪 程 序 库 来 文 持 两 个 照相 机 控 
制 任 务 以 及 ICS 任 务 。 实 际 情况 是 由 于 该 设备 软件 所 面临 的 架构 约束 ， 
把 这 块 代码 放 在 任何 其 他 地 方 都 不 合适 ， 因 此 ， 最 终 把 它 放 在 ICS。 
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图 3-4: 图 像 飞 行 软件 任务 
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本 章 之 前 提 到 过 ， 每 个 设备 任务 可 以 分 配 到 的 内 存 数 量 是 有 限 的 ， 
但 究竟 有 限 到 什么 程度 ， 可 能 说 出 来 会 让 有 些 人 大 吃 一 尺 ， 因 为 现在 对 
于 一 台 桌 面 台式 机 ， 有 500M 或 者 1G 的 内 存 已 经 很 普遍 了 。 分 配给 SSI 和 
RAC/OM 用 于 图 像 数 据 存 储 任务 的 初始 内 存 差 230K 是 10M (确切 地 说 是 
10255360 个 字 节 ) 。 大 家 讨论 过 ， 在 太空 飞行 器 着 陆 后 ， 可 以 增加 其 内 
存 分 配 。 这 意味 着 任何 内 存 管 理 机 制 都 必须 很 灵活 ， 而 这 也 是 设计 的 基 
本 要 求 。 默 认 的 存储 机 制 需要 至 少 处 理 四 个 SSI 图 片 〈 或 者 两 对 ， 
个 “眼睛 ”包含 一 个 图 片 ，， 而 且 人 至 少 四 张 RAC/OM 图 片 ， 这 些 图 片 都 存 
储 在 相同 的 内 存 空 间 中 。 这 种 零散 的 大 小 分 配方 式 意味 着 至 少 在 初始 阶 
段 ， 不 可 能 “ 挤 进 ” 超 过 四 张 的 全 尺寸 大 小 的 SSI 图 像 。 

在 散 入 式 系 统 中 ， 使 用 动态 内 存 分 配 通 常 被 认为 是 一 个 非常 糟糕 的 
想法 。 为 了 避免 内 存 雁 片 、 内 存 泄 露 、 空 指针 、 黄 名 其 妙 的 程序 骨 溃 以 
及 可 能 完全 无 法 完成 任务 ， 飞 行 软件 编码 规范 禁止 使 用 动态 内 存 分 配 
《C 的 malloc 函 数 及 其 家 族 ) 。 这 意味 着 不 论 分 配给 成 像 软 件 的 内 存 有 
多 小 ， 它 都 需要 自己 在 该 内 存 范围 内 管理 图 像 数据 ， 而 且 软 件 必须 健 
壮 、 可 靠 。 

为 了 满足 以 上 需求 ， 成 像 软 件 的 解决 方案 是 在 启动 时 ， 使 用 一 组 函 
数 作 为 内 存 管理 器 ， 用 来 为 ICS 预 分 配 内 存 。 内 存 管理 器 是 图 像 数据 处 
理 的 核心 组 件 。 为 了 避免 冲突 ， 采 用 阻塞 信号 来 控制 三 个 成 像 任务 间 的 





























共享 访问 (实际 上 ， 在 太空 飞行 器 软件 中 的 任何 一 个 任务 都 可 能 使 用 共 
享 内 存 ， 但 实际 情况 是 只 有 照相 机 使 用 共享 内 存 ) 。 

静态 内 存 分 配 被 划分 成 < 槽 ”， 它 可 能 大 到 足以 容纳 一 个 全 尺寸 大 小 
的 SSI 图 像 ， 或 者 是 较 小 的 RAC/OM 图 像 。 图 3-5 显 示 了 ICS 图 像 存储 空 
间 的 默认 组 织 方式 。 
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默认 配置 : 
4 个 SSI 尺 寸 槽 (每 个 2 MB) 


4 个 RAC/OM 尺寸 槽 (每 个 0.25 MB) 
图 3-5: 默认 的 图 像 “ 模 ”分配 





这 只 是 一 种 可 能 的 配置 方式 ， 每 种 类 型 的 槽 的 个 数 可 以 通过 接收 从 
地 面 传输 上 来 的 命令 而 随时 改变 。 

每 个 图 像 还 包含 一 个 包含 头 数据 的 关联 结构 。 图 像 头 数据 记录 了 以 
下 信息 ， 如 定义 生成 图 像 的 照相 机 的 代码 、 上 曝光 时 间 、 选 择 的 图 像 处 理 
选项 、 图 像 维度 、 可 能 使 用 的 光学 过 滤器 以 及 图 像 如 何 压 缩 (如果 采 用 
了 压缩 方法 ) 。 部 分 的 头 数据 是 由 生成 图 像 的 设备 任务 生成 的 ， 其 余部 
分 是 由 ICS 在 把 图 像 数据 发 送 给 太空 处 理 器 “下 行 ” 的 处 理 程序 之 前 生成 
的 。 由 于 头 数据 并 非 图 像 数据 本 身 ， 它 存储 在 一 个 独立 的 内 存 槽 ， 直 到 
需要 执行 “下 行 ?操作 时 才 使 用 。 每 个 图 像 槽 和 其 关联 的 头 数 据 需 要 通过 
协力 的 方式 进行 跟踪 和 处 理 。 

如 图 3-6 所 示 ， 内 存 管 理 器 实际 上 只 是 一 组 函数 集合 ， 这 些 函 数 在 一 
个 结构 数组 上 执行 操作 。 内 存 槽 的 当前 状态 是 保存 在 数组 中 ， 这 些 数组 
实际 上 构成 了 一 个 物理 内 存 空间 及 其 内 容 的 动态 模型 。 











图 像 数据 





和 地 址 
图 3-6: 内 存 模 管理 数组 
其 中 一 个 数组 包含 图 像 数 据 的 结构 体 ， 每 个 图 像 槽 对 应 一 个 结构 
体 。 该 结构 体 通过 C 语 言 类 型 定义 如 下 : 


















































typedef struct{ 

uintl6 t slot status; /**<Owned or unowned */ 

intl6 t slot owner; /**<-1 if slot is unowned */ 

intl6 t slot size; /**<either RAC/OM or SSI sized */ 
uint16 t*slot address: /**<address of data space of slot */ 
Jics img slot entry t; 


E | 


第 二 个 数组 包含 指 网 头 数据 入 口 的 结构 体 ， 其 定义 如 下 : 




















typedef struct{ 

uintl6 t slot status; /**<Owned or unowned */ 

int16 t slot owner /**<-1 if unowned */ 

int16 七 img idi /**<associated image data slot number */ 











uint16 t hdr data[ICS HDR SLOT SZ]; /**<array for header data */ 
}ics hdr slot entry t; 








注意 : 图 像 的 头 结构 体 包 含 该 图 像 ID 的 入 口 。 这 一 点 是 很 有 必要 
的 ， 因 为 槽 可 以 以 任意 次 序 进 行 分 配 和 释放 ， 而 且 不 能 保证 一 个 图 像 模 
入 口 的 索引 和 它 原 来 关联 的 头 数据 槽 的 索引 是 同一 个 索引 。 我 们 采用 图 
像 ID 把 图 像 和 头 数 据 入 口 绑 定 在 一 起 ， 而 不 是 依赖 于 数组 中 的 索引 偏 移 
来 保证 图 像 和 头 数 据 入 口 是 同 步 的 。 

由 于 可 以 动态 重新 配置 图 像 的 槽 分 配 ， 内 存 管理 右 可 以 适应 于 特定 
的 任务 。 一 方面 ， 如 果 为 火星 上 的 某 天 制定 的 计划 (或 者 称 一 个 Sol) 和 
通过 SSI 成 像 相关 ， 那 么 我 们 就 可 以 通过 槽 配置 来 最 小 化 RAC/MECA 的 
大 小 分 配 ， 即 设置 为 默认 的 配置 。 另 一 方面 ， 如 果 该 计划 和 很 多 的 RAC 
或 OM 图 像 相关 ， 那 么 我 们 可 以 对 内 存 进行 配置 ， 使 得 它 能 够 处 理 上 限 
39 个 、 较 小 尺寸 的 图 像 。 








传递 图 像 : 三 个 任务 间 的 通信 


一 台 照 相机 的 图 像 数据 刷新 会 通过 其 中 一 个 照相 机 任务 写 入 槽 中 。 
在 执行 完 任何 必要 的 像素 纠正 和 子 图 定位 操作 之 后 ， 该 照相 机 任务 会 
知 ICS 有 新 的 图 像 可 以 处 理 。 然 后 ICS 根 据 输 入 的 命令 ， 对 该 槽 中 的 图 像 
执行 就 地 压缩 (不论 是 有 损 的 还 是 无 损 的 ) ， 然 后 对 图 像 数据 进行 打 
包 ， 传 递 给 "下行 ? 处 理 程序 。 只 有 完成 了 下行? 处理 ， 该 槽 才 会 被 释 
放 ， 供 新 的 图 像 使 用 。 从 图 像 皮 0 光 到 为 SSI 照 相机 传送 图 像 的 事件 顺序 
如 图 3-7 所 示 。 









© fo rms 曝光 图 像 命令 


(从 照相 机 下 载 ) 
把 图 像 存储 在 图 像 模 
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6) 把 图 像 传 给 ICS 
准备 获取 下 一 个 图 像 


图 3-7: 图 像 获 取 和 传送 序列 

如 图 3-6 所 示 ， 整 个 事件 的 次 序 是 根据 图 像 模 的 可 达 性 而 定 的 。 如 果 
无 法 获取 槽 ， 照 相机 任务 将 会 等 竺 一 段 可 配置 的 时 间 ， 使 得 ICS 可 以 完 
成 压缩 和 图 像 * 下 行 ?处 理 ， 这 样 就 有 一 个 图 像 槽 变 得 可 用 。 如 果 ICS 在 
那 段 时 间 内 不 释放 权 ， 该 照相 机 任务 整 会 给 地 面 的 操作 员 生 成 一 条 错误 
信息 ， 直 接 把 该 图 像 保存 在 照相 机 中 (因为 实在 没有 其 他 地 方 可 以 保存 
该 图 像 ) 。 

一 旦 一 个 照相 机 设备 任务 获取 一 个 档 ， 它 在 把 该 槽 交 给 ICS 之 前 ， 


就 “拥有 ”该 槽 ， 而 交 给 ICS 之 后 ，ICS 就 拥有 该 楷 。 拥 有 权 的 验证 是 基于 
模 管 理 器 在 初始 化 该 槽 时 所 分 配给 它 的 模 ID 《〈 即 了 数值 ) 、 图 像 ID 代码 
和 照相 机 设备 任务 ID。 当 某 个 任务 把 一 个 模 交 给 ICS 时 ，ICS 会 验证 这 些 
ID 和 之 前 记录 下 来 的 该 图 像 槽 的 ID 是 人 否 匹 配 。 

正如 之 前 所 述 ，ICS 是 异步 方式 运行 ， 且 和 任意 一 个 照相 机 任务 并 没 
有 密切 关系 。 可 以 通过 利用 VxWorks 的 内 置 消息 队列 系统 ， 并 且 在 内 存 
槽 管理 器 中 使 用 共享 函数 ， 把 ICS 和 照相 机 关联 起 来 。 图 3-8 显 示 了 这 些 
步 又 的 消息 序列 图 (MC) 表 示 方 式 ， 这 些 步骤 包括 从 照相 机 获取 数据 到 
最 终 把 它们 传输 给 “下 行 ?程序 。 

使 用 内 部 消 轧 队列 (S/C FSW 操 作 系 统管 道 ， 代 表 太 空 飞行 堪 的 改 
行 软件 ) ， 这 将 允许 任意 一 个 照相 机 任务 使 用 和 执行 从 地 面 “ 上 行 的 命 
令 相 同 的 机 制 ， 并 向 ICS 发 布 命令 。 该 命令 会 保存 在 队列 中 ， 直 到 ICS 完 
成 了 其 当前 的 任务 。 只 要 有 可 用 的 槽 来 存储 图 像 数 据 ， 照 相机 就 会 继续 
获取 图 片 ，ICS 将 轮流 检索 和 处 理 这 些 数据 ， 直 到 队列 为 室 ， 而 不 需要 
考虑 照相 机 当前 的 工作 状态 。 

ER: 图 3-8 没 有 显示 在 成 像 过 程 中 的 错误 检查 。 总 之 ， 错 误 检查 和 
出 错 处 理 的 代码 行 数 大 概 和 实际 上 执行 处 理 或 者 处 理 该 数据 的 代码 的 行 
数 相 同 。 在 设计 生命 周期 的 早期 就 采用 了 失效 模型 效果 关键 性 分 析 
(Filure Mode,Effects,and Criticality Analysis,FMECA) 技 术 ， 该 技术 在 软件 
实现 和 出 错 处 理 能 力 上 具有 指导 作用 。 

ICS 对 数据 流 进 行 序 列 化 ， 但 是 使 用 图 像 槽 和 命令 消息 队列 允许 一 组 

















图 像 可 以 连续 快速 地 (相对 而 言 ) 获 取 。 这 也 意味 着 对 于 图 像 获取 ， 存 
在 一 定 的 时 间 间 隙 (tming margin)， 这 减少 了 由 于 等 待 图 像 “ 下 行 ”处 理 ， 

操作 被 挂 起 的 几率 。 早 期 的 测试 命令 序列 证 明了 可 以 执行 如 下 操作 ， 制 
作 短 篇 "电影 ”〈 这 么 说 是 因为 从 SSI 照 相机 下 载 一 张 图 片 大 约 需要 6 

Wb) ， 或 者 使 用 不 同 焦距 的 RAC 或 者 OM 生 成 大 的 〈30 多 张 图 像 ) 数据 
Ee. 


获取 图 片 : 图 像 下 载 和 处 理 


从 图 像 曝光 到 最 终 传 送 给 ICS， 这 期 间 发 生 了 很 多 事情 。 系 统 中 的 每 
个 照相 机 都 有 自己 的 控制 电子 设备 来 处 理 命令 和 把 从 CCD 获 取 的 模拟 信 
写 转 换 为 12 位 的 数字 值 ， 然 后 把 数据 存储 在 人 硬件 缓冲 区 中 ， 直 到 飞行 软 
件 可 以 把 数据 下 载 到 图 像 模 。 


SiC FSW 
照相 机 任务 槽 管理 器 消息 队列 ICs 


获取 照相 机 命令 
获取 槽 地 址 


获取 新 的 消息 


请 求 槽 地 址 
获取 槽 地 址 





图 3-8: 图 像 获 取 、 处 理 和 “下 行 ” 处 理 的 MSC 表 示 
以 上 所 有 这 些 都 是 在 防 辐射 的 可 编程 门 阵列 设备 中 的 风 入 式 逻 辑 控 
BI PAAR. 
照相 机 一 旦 获取 到 一 张 图 像 ， 并 把 它 写 入 图 像 槽 ， 就 会 对 该 图 像 执 
行 各 种 方式 的 处 理 ， 每 种 处 理 都 是 在 图 像 槽 的 约束 下 就 地 执行 。 由 于 没 
有 额外 大 的 《图 像 尺 寸 ) 缓冲 区 可 以 供 处 理 过 程 或 者 保存 结果 数据 使 





用 ， 因 此 ， 只 有 几 个 小 的 缓冲 区 来 保存 必要 的 中 间 结 果 。 使 用 就 地 处 理 
方式 是 设计 成 像 软 件 的 关键 因素 ， 它 允许 三 个 任务 在 整个 系统 中 只 占用 
很 少 的 内 存 。 图 3-9 显 示 了 对 于 凤凰 号 火星 着 陆 探 测 器 成 像 飞行 软件 ， 
ERIP AETR RRIP UREO 的 就 地 设计 策略 之 间 的 区 别 。 
我 们 采取 融 地 单 缓冲 区 处 理 方式 ， 是 为 了 满足 图 像 处 理 需 求 ， 并 且 
占用 的 内 存 仍然 在 预 分 配给 照相 机 的 内 存 范围 之 内 ， 在 早期 设计 时 采用 
的 一 个 权衡 。 虽 然 这 种 设计 处 理 方式 ， 确 实 满足 内 存 需 求 ， 其 不 足 之 处 
是 无 法 提供 “undo” 操 作 。 如 图 3-10 所 示 ， 如 果 在 图 像 处 理 时 出 现 错误 ， 
那么 会 导致 或 者 整个 图 像 丢 失 ， 或 者 是 返回 的 是 部 分 错乱 的 图 像 。 














E 359: 多 数据 缓冲 区 和 单数 据 缓冲 区 





图 340: 就 地 数据 处 理 





就 地 数据 处 理 方式 的 处 理 算法 是 应 用 于 图 像 槽 中 的 全 程 数据 处 理 ， 
包括 读数 据 、 处 理 数据 及 写 回 结果 数据 。 有 些 算法 ， 如 像素 纠正 算法 ， 
并 没有 改变 图 像 的 几何 信息 ， 而 只 是 基于 已 知 一 些 “ 坏 ”像素 的 一 个 “上 
行 " 表 ， 简 单 地 对 单个 像素 值 进行 修改 一 个 像素 有 可 能 是 “ 坏 ” 像 素 有 
两 个 原因 : 一 是 其 没有 相 邻 的 像素 那么 敏感 ， 二 是 它 可 能 过 于 敏感 ) 。 
在 空间 环境 中 ， 人 们 认为 奇特 的 宇宙 射线 可 能 会 穿 透 CCD 上 的 一 个 像 
素 ， 叶 致 该 像素 有 缺陷 。 其 他 的 操作 ， 比 如 图 像 子 图 定位 ， 从 原始 图 像 
中 抽取 一 块 区 域 ， 把 该 区 域 写 回 到 槽 中 ， 然 后 相应 地 调整 高 度 和 宽度 参 
数 。 抽 样 技术 采用 了 一 种 数学 均值 计算 的 方式 ， 通 过 把 像素 按 4、9 或 16 
分 组 的 方式 ， 每 个 组 生成 的 是 单一 的 结果 像素 ， 从 而 减少 图 像 大 小 。 结 
果 像 素 在 图 像 大 小 上 相应 地 缩小 了 1/2、1/3 或 者 4; 而 最 小 化 “梯度 步 
长 ”的 处 理 方式 ， 通 第 是 在 当 图 像 通过 子 抽样 技术 ， 只 保留 每 第 >、 第 3 
或 者 第 4 个 像素 ， 而 抛弃 其 他 像素 来 达到 减 小 图 像 大 小 。 这 种 操作 也 把 
修改 后 的 结果 数据 写 回 到 图 像 模 中， 并 相应 地 调整 了 其 几何 参数 。 
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一 条 消息 《如 之 前 所 述 ) ， 然 后 执行 消息 队列 中 的 下 一 条 命令 。 如 果 有 
可 用 的 图 像 粮 ， 该 任务 会 执行 获取 另 一 个 图 像 的 处 理 操 作 。 
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正如 由 机 器 人 完成 的 任务 生成 的 数据 非常 宝贵 ， 需 要 返回 这 些 数 据 
的 通信 和 带宽 也 是 非常 宝贵 的 。 对 于 较 小 的 图 像 ， 比 如 那些 通过 子 图 定位 
或 者 抽样 操作 ， 图 片 大 小 已 经 减少 了 ， 因 此 直接 执行 “下 行 ”操作 而 不 做 
压缩 处 理 是 可 行 的 。 更 大 的 图 像 ， 比 如 全 尺寸 大 小 的 SSI 图 像 ，“ 下 
行 ” 操 作 会 消耗 很 多 带宽 ， 因 此 在 这 种 情况 下 ， 通 常 采 用 压缩 方法 来 解 
决 。 

ICS 采 用 像素 映射 和 扩展 ， 提 供 了 两 种 压缩 和 减少 图 像 大 小 的 方式 。 
对 于 某 个 特定 的 图 片 ， 采 用 哪 种 压缩 或 减少 图 像 大 小 方式 ， 主 要 依赖 于 
图 像 需要 达到 的 保 真 程度 ， 高 保 真 被 认为 是 图 像 的 一 个 必要 方面 。 在 一 
些 情况 下 ， 每 个 像素 8 位 就 足够 了 ; 而 在 其 他 一 些 情况 下 ，JPEG 压 缩 本 
身 造 成 的 图 像 保 真 损失 是 可 以 接受 的 ;而 对 于 一 些 情况 ， 图 像 需要 保持 

可 能 高 的 保 真 ， 则 可 以 采用 无 损 压 缩 的 方式 。 

在 ICS 内 部 ， 一 台 JPEG 压 缩 器 采用 所 有 的 整数 算 木 计算 和 融 地 操 
作 ， 提 供 所 谓 的 “有 损 ” 压 缩 方式 。JPEG 被 认为 是 有 损 的 ， 因 为 其 压缩 过 
程 丢失 了 部 分 图 像 数 据 。JPEG 可 以 通过 命令 ， 对 图 像 数 据 实现 不 同 程 
度 的 压缩 。 最 终 代 人 码 是 松散 式 地 基于 Mars'98 使 命 的 JPEG 压 缩 器 ; 虽然 
凤凰 号 火星 着 陆 探 测 器 的 ICS 的 实现 只 采用 了 其 部 分 原始 代码 。 原 始 的 
JPEG 压 缩 器 使 用 的 是 浮 点 数 乘 以 全 斥 寸 大 小 的 图 像 数 组 作为 缓存 ， 并 
采用 动态 内 存 分 配方 式 。 对 于 这 种 方式 如 何在 飞行 软件 上 正常 工作 ， 我 


























仍然 感到 很 困惑 ， 不 过 它 确实 能 够 正常 工作 。 在 压缩 代码 中 使 用 浮 点 数 
来 表示 像素 数据 ， 这 也 意味 着 对 于 每 个 图 像 ， 比 起 16 位 整数 的 原始 图 像 
表示 方式 ， 浮 点 数 占用 了 其 四 倍 的 内 存 空间 。 

第 二 种 压缩 方式 ， 也 称 为 Rice 无 损 压 缩 (Rce Lossless) 2X 2f Rice Hs Afi , 
采用 了 由 Jet Propulsion 实 验 室 的 Robert Rice 开 发 的 一 种 算法 。 该 Rice 算 
法 可 以 对 图 像 数据 实现 几乎 2; 1 的 压缩 效果 ， 且 没有 数据 损失 。 而 
JPEG 算 法 在 压缩 过 程 中 丢失 了 部 分 数据 。Rice 压 缩 方法 也 是 在 图 像 槽 中 
就 地 对 图 像 进行 压缩 。 

两 种 无 压缩 的 缩小 图 像 大 小 技术 或 者 采用 碍 询 表 ， 把 12 位 的 像素 值 
映射 到 8 位 的 像素 值 ， 或 者 采用 位 缩小 技术 ， 对 像素 数据 向 右 移动 4 位 ， 
生成 一 个 每 个 像素 8 位 的 图 像 。JPEG 和 Rice 压 缩 函数 都 接受 12 位 或 者 8 位 
的 图 像 数 据 。 

是 否 采用 有 损 的 JPEG 压 缩 方 式 ， 通 常 需要 对 各 种 因素 进行 权衡 ， 比 
如 数据 需要 达到 的 精确 度 、 可 用 的 带宽 大 小 、 太 空 飞 行 器 的 主机 有 多 少 
可 用 的 “下 行 * 存 储 空间 、 有 多 少时 间 可 用 于 执行 压缩 (之 前 提 过 ， 
RAD6000 的 最 高 速度 是 20MHz， 因 此 压缩 1M 像 素 的 图 像 数据 可 能 需要 
超过 1 秒 钟 ) 。 

当 使 用 JPEG 压 缩 方 式 时 ， 采 用 的 压缩 比率 是 通过 命令 行 参 数 决 定 ， 
该 命令 行 参 数 指定 结果 数据 在 最 差 情况 下 的 压缩 比率 。 换 名 话说 ，ICS 
不 是 指定 一 个 “质量 ”因子 《该 因子 通常 表示 JPEG 压 缩 方法 需要 达到 的 压 
缩 级 别 ) ， 而 是 使 用 一 个 可 扩展 因子 ， 自 动 计算 得 出 需要 的 压缩 级 别 。 
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化 ， 如 有 很 多 鹅卵石 的 地 面 ， 阴 影 对 比分 明 ) 将 需要 更 高 的 压缩 设置 来 
满足 最 终 的 目标 图 像 大 小 限制 。 对 于 焙 值 低 的 图 像 ， 比 如 疆 着 一 些 云彩 
的 Martian 天 空 ， 没 有 太 多 的 细节 和 变化 ， 因 而 只 要 较 少 的 压缩 量 就 能 满 
足 目标 图 像 大 小 限制 。 

JPEG 压 缩 算法 扩展 因子 也 用 于 把 原始 图 像 划分 成 不 同 的 分 段 。 这 些 
分 段 一 次 一 个 地 传 给 JPEG 压 缩 器 ， 其 输出 被 写 回 到 图 像 的 柳 。 在 执 
行 “下 行 ?操作 之 前 ， 图 像 槽 的 最 终结 果 是 一 组 小 的 、 自 包含 的 JPEG 图 
像 ， 这 些 图 像 的 全 部 大 小 不 大 于 由 命令 行 指定 压缩 比率 的 原始 图 像 大 
小 。 

Rice 压 缩 器 包含 它 自己 的 扯 入 式 分 段 方 法 ， 而 且 其 “下 行 ”操作 是 简 
单 地 通过 读 出 压缩 数据 ， 这 些 压 缩 数据 通过 小 的 分 包 方式 ， 分 包 大 小 适 

合 太 空 飞行 器 主机 的 闪存 大 小 。 查 询 表 和 减少 位 的 方法 的 输出 也 是 简单 
地 读 出 闪存 大 小 的 包 ， 用 于 “下 行 ”操作 。 




















“下 行 ?或 一 切 都 从 这 里 向 下 传输 


太空 飞行 器 的 飞行 软件 处 理 过程 的 最 后 一 步 是 传送 图 像 给 “下 行 ”" 管 
理 占 。 一 些 科 学 设备 可 以 简单 地 把 数据 传 给 “下 行 * 程 序 ， 完 成 处 理 ;， 但 
是 ， 由 于 海量 的 数据 以 及 采用 分 包 的 方式 ， 结 果 是 ICS 本 里 需要 完成 很 
多 的 预 处 理 操 作 。 

对 于 JPEG 数 据 ， 这 意味 着 需要 分 别 单独 处 理 每 次 的 图 像 压 缩 分 段 。 
一 个 序列 的 第 一 个 和 最 后 一 个 分 段 通 币 包 含 一 个 全 矿 十 大 小 的 图 像 数 据 
头 。 中 间 分 段 的 头 数据 大 小 较 小 ， 包 含 一 个 图 像 DD 号 和 序列 号 。 由 于 每 
个 分 段 都 是 从 图 像 模 读 取 数 据 ， 所 以 采用 了 头 数据 。 采 用 滑动 实 口 的 方 
式 问 外 读 取 数 据 ， 使 得 分 段 在 以 内 存 大 小 分 包 组 合 时 ， 可 以 对 分 段 执行 
端 对 端 (ed-to-end) 地 打包 。 反 过 来 ， 它 允许 “下 行 ”处 理 器 最 大 化 使 用 临 
时 闪存 存储 空间 ， 因 为 如 果 一 部 分 图 像 对 应 的 分 段 的 业 值 很 小 ， 那 么 一 
些 压缩 的 分 段 可 能 比 其 他 的 分 段 小 。 实 际 上 ， 压 缩 的 分 段 大 小 区 别 很 大 
是 很 常见 的 ， 因 此 对 这 些 分 段 执行 端 对 端 地 打包 避免 了 浪费 飞船 上 任何 
的 内 存 资源 。 

因为 数据 是 由 唯一 识别 的 分 段 组 成 的 ,，“ 下 行 ”过 程 丢 失 一 个 分 包 并 
不 会 导致 整个 图 像 毫 无 用 处 。 在 JPL， 地 面 上 的 重 构 和 解压 缩 软件 能 够 
识别 出 丢失 了 哪个 分 段 ， 然 后 简单 地 把 丢失 的 那 部 分 图 像 以 全 0 像素 数 
据 来 填充 。 如 果 后 期 获取 到 丢失 的 那 部 分 数据 (这 是 可 能 的 ， 因 为 考虑 
到 数据 的 “下 行 ?过 程 是 非常 曲折 的 ) ， 那 么 这 部 分 数据 就 可 以 用 来 填充 








之 前 丢失 的 那 部 分 像素 数据 。 

一 且 发 送 数据 给 “下 行 ?处 理 器 ，ICS 就 完成 任务 ， 并 且 释 放 该 图 像 数 
所 的 插 权 。 这 整个 过 程 ( 从 图 像 曝 光 到 完成 友 送 给 “下 行 " 程 序 ) 需要 3 
一 10 分 钟 ， 这 依赖 于 CPU 速度 和 其 他 额外 必定 发 生 的 成 像 处 理 ， 如 目 动 
曝光 和 寻找 光线 〈 这 两 者 本 身 就 非常 复 人 本， 所 以 我 们 不 在 这 里 讨论 ) 。 
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该 设备 软件 所 完成 的 任务 要 远 远 多 于 照相 和 处 理 图 像 数据 。 它 也 管 
理 SSI 的 三 《“ 上 自由) 度 运 动 控制 ， 以 及 RAC 中 的 聚焦 和 视角 。RAC 还 文 
持 多 色 的 LED， 包 括 红 、 蓝 和 绿 ， 照 亮 任何 可 能 在 机 械 臂 范围 内 的 视 
角 ， 然 后 生成 彩色 图 片 。SSI 和 RAC 都 结合 了 活动 的 热 控制 ， 这 或 者 是 
通过 使 用 特定 的 加 热 器 ， 或 者 是 故意 拖延 一 个 步 进 电机 来 达到 自我 加 
热 。 所 有 这 些 操作 都 包含 错误 检查 和 容错 恢复 。 总 之 ， 该 设备 软件 任务 
非常 “繁忙 ”"。 如 果 让 我 重新 设计 该 软件 ， 我 希望 改变 的 主要 方面 是 ， 照 
相机 使 用 的 是 它们 自己 的 供 入 式 处 理 器 ， 而 不 是 依赖 于 太空 飞行 器 的 
CPU。 这 样 会 使 所 有 的 操作 都 变 简单 得 多 。 除 了 这 点 ， 我 总 觉得 对 于 每 
个 设备 任务 ,“ 挤 进 ? 了 太 多 的 操作 。 换 名 话说 ， 热 控制 对 于 每 个 照相 机 
本 应 该 是 一 个 独立 的 任务 。 这 样 就 可 以 极 大 地 减少 每 个 任务 的 复杂 度 ， 
虽然 其 代价 是 增加 全 局 任务 间 通 信 的 复杂 度 。 然 而 ， 在 刚 开 始 时 ， 没 有 
足够 的 理由 来 这 么 做 ， 因 此 当 有 一 些 新 的 加 热 需求 需要 对 设计 做 出 调整 
时 ， 该 设计 已 经 很 固定 了 《没有 冻结 ， 只 是 非常 不 灵活 ) o 

最 后 ， 对 于 选择 “心跳 ”检查 方式 ， 我 真 的 是 很 不 支持 。 我 原先 不 知 
道 命令 消息 队列 是 为 了 进行 “心跳 检查。 这 种 “心跳 ”检查 方式 对 设备 任 
务 提出 了 需求 ， 要 求 每 个 任务 能 够 放弃 任何 它们 正在 做 的 事 ， 通 
过 “ping” 消 息 定时 检查 命令 消息 队列 。 我 相信 更 好 的 方式 应 该 是 让 设备 
注册 一 个 太空 飞行 器 飞行 软件 回调 函数 ， 该 函数 可 通过 异步 方式 ， 检 查 

















连续 更 新 的 计数 器 变量 的 值 。 如 果 在 一 定时 间 后 ， 该 值 没有 更 新 ， 则 该 
设备 任务 很 可 能 已 经 骨 溃 。 当 时 确实 对 这 种 实现 方式 有 很 多 争议 ， 最 后 
采用 ping 消 息 的 方式 ， 仅 仅 是 因为 这 是 一 种 通用 的 方式 ， 而 且 已 有 的 测 
试 系统 就 是 这 么 设计 处 理 的 。 因 此 ， 即 使 系统 不 是 为 了 需要 花费 好 几 分 
钟 来 处 理 的 海量 图 像 数 据 而 设计 的 ， 但 是 该 设计 方式 也 不 会 发 生 改变 。 
凤凰 号 火星 着 陆 探 测 器 的 SSI 和 RAC/OM 成 像 软 件 在 设计 、 实 现 和 测 
试 上 有 很 多 工作 要 做 ， 而 且 在 最 后 ， 它 完成 了 在 其 使 命 的 整个 生命 周期 
中 应 该 完成 的 任务 。 图 3-11 是 该 太空 飞行 器 在 火星 上 的 第 一 天 ， 即 Sol 
1， 从 SSI 返 回 的 第 一 批 图 像 之 一 (SO001EDN896308958_10D28R1M1) 。 


























图 3-11: 从 Sol 1 的 SSI 返 回 的 图 像 (图 像 来 源 : NASA/JPL/Atizonak 
学 ) 
更 多 关于 凤凰 写 火 星 着 陆 探测 此 
如 果 你 想 对 凤凰 号 火星 着 陆 探 测 器 的 使 命 了 解 更 多 ， 可 以 查看 以 下 
几 个 主要 来 源 : 





Arizona 大 学 的 Phoenix 网 站 : : http: //phoenix.lpl.arizona.edu 
Jet Propulsion Laboratory(JPL 实 验 室 ) 的 Phoenix 网 站 : 


: http: //www.jpl.nasa.gov/news/phoenix/main.php 


NASA 44 Phoenix P 35 : 
: http: //www.nasa.gov/mission_pages/phoenix/main/index.html 
在 JPLMIPL 为 各 种 任务 做 了 很 多 图 像 处 理 ， 你 可 以 通过 以 下 站 点 了 
解 更 多 : 
JPL 的 Mission 图 像 处 理 实验 室 : : http: //www-mipl.jpl.nasa.gov/ 
如 果 你 想 对 RAD6000 CPU. ARAL RRAKAAT MBS, TV 


查阅 Wikipedia:http: //www.wikipedia.org. 
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雅虎 公司 运营 着 世界 上 最 受 欢 迎 的 多 个 网 站 ， 每 月 的 访问 用 户 有 5 亿 
之 多 。 这 些 Web 站 点 的 后 台数 据 系 统 存 储 了 种 类 庞杂 的 数据 ， 如 用 户 信 
恩 、 照 片 、 餐 馆 点 评 、 博 客 博 文 以 及 大 量 其 他 数据 。 雅 虎 开 发 部 署 了 多 
套 成 熟 、 稳 定 的 数据 库 体 系 来 支持 它 的 站 点 ， 同 时 这 些 架构 也 为 用 户 提 
供 低 延迟 的 数据 访问 方式 来 快速 加 载 页 面 。 

但 是 ， 这 些 系统 存在 着 一 些 严 重 的 局 限 性 。 首 先 ， 系 统 扩容 困难 。 
为 了 进行 系统 扩容 ， 通 常 需 要 数 月 的 时 间 来 规划 和 重组 数据 ， 并 且 在 扩 
容 过 程 中 ， 相 关 应 用 的 服务 质量 会 受到 影响 。 此 外 ， 有 些 系统 可 支持 的 
扩展 性 具有 上 限 值 ， 即 使 增加 硬件 支持 也 无 济 于 事 。 其 次 ， 很 多 早期 设 
计 的 系统 ， 其 设计 思想 就 是 基于 单一 的 数据 中 心 。 雅 虎 已 经 发 展 为 全 球 
性 的 品牌 ， 其 广泛 的 基础 用 户 遍 及 全 世界 。 为 了 提供 良好 的 用 户 体验 ， 
系统 需要 复制 数据 到 离 用 户 近 的 数据 中 心 ， 这 样 当 用 户 访 问 时 ， 页 面 就 
可 以 快速 加 载 。 由 于 数据 库 系统 本 号 并 没有 将 全 球 性 数据 复制 作为 内 建 
的 功能 提供 ， 每 个 应 用 需要 自己 构建 数据 复制 ， 这 导致 复杂 的 应 用 逻辑 
和 注 弱 的 数据 基础 。 部 署 一 个 大 规模 的 、 在 不 同 地 理 空间 上 都 存在 数据 
副本 的 数据 库 架 构 需 要 很 大 投入 ， 因 此 ， 在 这 样 的 架构 上 ， 很 难 快速 地 
开发 新 的 应 用 或 在 已 有 的 应 用 上 增加 新 的 特性 。 

PNUTS 系 统 致力 于 支持 雅虎 的 web 站 点 和 应 用 平台 ， 并 解决 上 述 局 
限 (Coper 等 2008) 。 在 设计 上 ， 它 通过 云 存 储 方式 ， 可 以 有 效 地 处 理 租 














户 应 用 (tnant applications) 中 复杂 的 读 写 工作 ， 并 且 支 持 本 地 全 球 数据 复 
制 。 和 很 多 其 他 的 分 布 式 系统 类 似 ，PNUTS 通 过 水 平 数据 分 区 的 方式 ， 
将 数据 分 布 到 一 组 存储 服务 器 阵列 上 ， 从 而 实现 高 性 能 和 可 扩展 性 。 该 
系统 的 核心 不 是 复杂 的 分 析 和 诀 策 文 持 工作 ， 而 是 从 最 初 设 计 融 把 两 个 
属性 作为 首要 特征 : 

向 外 扩展 (sale-out) 

系统 通过 分 区 将 数据 分 布 式 存储 到 多 台 服 务 器 上 ， 扩 充 系 统 容量 犹 
如 增加 新 的 服务 器 一 样 容易 ， 且 系统 可 以 平滑 地 将 负载 分 配 到 新 的 服务 
ano 

地 理 空 间 上 的 数据 复制 (go-replication) 

在 PNUTS 系 统 中 ， 数 据 可 以 自动 地 复制 到 全 世界 。 一 旦 开发 者 告诉 
系统 在 哪个 区 域 LNJ(clos， 即 数据 中 心 ) 复制 数据 ， 系 统 本 身 就 会 自动 地 
完成 诸多 细节 操作 ， 包 括 故 障 处 理 〈 如 机 器 、 链 接 甚 至 整个 区 域 ) 的 一 
些 细节 操作 。 

PNUTS 系 统 还 设置 了 一 些 其 他 的 目标 ， 尤 其 是 ， 我 们 希望 应 用 开发 
者 能 够 专注 于 应 用 逻辑 本 里 ， 而 不 是 操作 数据 库 的 具体 细节 。 因 此 该 系 
统 对 数据 库 采 取 托 管 方式 ， 并 为 开发 者 提供 一 个 简洁 易 用 的 API 来 存储 
和 访问 这 些 数 据 ， 而 不 需要 他 们 自己 对 一 大 堆 参 数 进行 调 优 。 由 于 系统 
采取 托管 方式 ， 在 功能 实现 上 ， 它 能 够 尽 可 能 达到 自我 维护 。 

尽管 这 些 目标 都 很 重要 ， 而 且 构建 一 个 能 够 向 外 扩展 且 易 于 全 球 性 
数据 复制 的 数据 库 系 统 是 对 公司 最 有 吸引 力 和 直接 价值 的 。 随 着 开始 系 











统 设计 ， 我 们 清楚 地 发 现 很 多 长 期 普及 和 使 用 的 数据 库 系统 机 制 需要 重 
新 考虑 (Rmakrishnan 和 Gehrke 2002) 。 

实现 向 外 扩展 和 地 理 空间 上 数据 复制 的 核心 思想 是 只 进行 简单 廉价 
的 同步 操作 ， 而 在 后 台 异 步 式 地 实现 所 有 代价 高 的 操作 。 举 个 例子 ， 当 
一 个 加 州 的 用 户 想 用 一 个 关键 字 来 标注 一 张 照 片 ， 她 必定 不 愿意 等 待 该 
系统 把 该 标签 提交 到 在 新 加 坡 的 标签 数据 库 副 本 《〈 从 加 州 到 新 加 坡 的 网 
络 延 迟 可 能 高 达 1 秒 ) 。 然 而 ， 她 还 是 希望 她 的 新 加 坡 朋 友 能 够 看 见 该 
标签 ， 因 此 需要 在 后 台 对 新 加 坡 的 数据 库 副 本 完成 快速 〈 几 秒 内 ) 、 可 
靠 的 异步 更 新 。 

另 一 个 如 何 发 挥 异 步 作 用 的 例子 是 诸如 聚集 查询 和 连接 操作 ， 它 们 
通常 需要 在 多 台 服 务 器 上 执行 数据 操作 。 随 着 系统 规模 扩大 、 负 蓓 加 
重 ， 这 些 服务 器 出 现 响应 变 慢 或 者 骨 溃 的 概率 也 随 之 增加 ， 因 此 会 增加 
请 求 延 迟 。 为 了 解决 该 问题 ， 我 们 可 以 维护 实体 化 视图 (mterialized 
views) 来 重组 这 些 基础 数据 ， 这 样 一 些 预先 设 定 的 复杂 查询 可 以 通过 只 
访问 一 台 服 务 器 来 获得 响应 。 和 数据 库 副本 相似 ， 若 同步 更 新 每 个 视 
图 ， 在 执行 写 操作 时 非常 缓慢 ， 因 此 我 们 的 策略 是 采取 异步 方式 更 新 这 
些 视图 。 

本 章 的 剩余 部 分 会 深入 地 剖析 重点 研究 向 外 扩展 和 地 理 空间 上 的 数 
据 复制 这 两 大 首要 特征 的 涵义 。 我 们 将 通过 一 个 例子 来 前 明 主 要 问题 、 
说 明基 本 方法 、 讨 论 一 些 问 题 及 扩展 ; 然后 ， 将 PNUTS 和 其 他 方法 作 比 
较 。 本 章 的 讨论 重点 是 设计 理念 ， 而 不 是 系统 架构 或 实现 细节 ， 并 且 为 
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特性 。 


四 区 域 设 施 ， 或 者 称 数据 中 心 。 雅 虎 在 全 世界 运营 着 大 量 的 数据 中 
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更 新 数据 





用 户 和 Web 站 点 的 交互 操作 会 导致 数据 库 的 不 断 更 新 。 因 此 ， 我 们 
要 解决 的 首要 挑战 是 为 每 个 更 新 提供 良好 的 性 能 和 操作 一 致 性 的 前 提 
下 ， 如 何 支 持 大 量 的 更 新 操作 。 

面临 挑战 

假设 我 们 要 构建 一 个 社交 网 络 站 点 ， 系 统 中 的 每 个 用 户 都 有 一 条 用 
户 信息 记录 ， 该 记录 包含 用 户 名 、 爱 好 等 。 用 户 Alice 可 能 在 全 世界 都 有 
朋友 ， 她 的 朋友 想 看 她 的 个 人 信息 ， 这 些 读 取 请 求 操 作 有 严格 的 低 延 迟 
要 求 。 为 此 ， 系 统 必 须 保 证 Alice 的 用 户 信息 记录 《其 他 人 的 也 类 似 ) 在 
全 球 都 有 副本 ， 这 样 她 的 朋友 们 就 可 以 访问 该 记录 的 本 地 副本 。 现 在 ， 
社交 网 络 的 一 个 特征 是 用 户 可 以 通过 自由 的 文本 定制 来 更 新 自己 的 状 
态 。 比 如 ，Alice 可 能 想 修改 她 的 状态 为 “忙碌 ， 电 话 中 ”(Bsy on the 
phone)， 过 后 义 修 改 为 “有 空 ， 要 聊天 吗 ? ”(Of the phone,anybody wanna 
chat?) 。 当 Alice 更 改 她 的 状态 时 ， 系 统 需要 把 这 些 更 改 操作 写 入 数据 
库 中 她 的 用 户 信息 记 录 ， 这 样 她 的 朋友 们 才 可 以 看 到 。 用 户 信息 记 录 表 
见 表 4-1。 注 意 ， 为 了 支持 Web 应 用 的 不 断 升级 ， 必 须 提供 一 个 灵活 的 
数据 库 模 式 和 松散 耦合 的 数据 组 织 方式 ， 而 不 是 每 条 记录 的 每 个 字段 都 
有 相应 值 ， 并 且 增 加 新 的 字段 代价 必须 小 。 














表 4-1: 用 户 信息 表 


Username | FullName Location Status IM BloglD |Photo | | … 
Alice | Alice Smith | Sunnyvale, CA | Off the phone, | Alice345 | | | 
anybody 
wanna chat? 
Bob | Bob Jones | Singapore Eating dinner | | 3411 pepe cs 
Charles | Charles Adams| New York, | Sleeping | | 5539 | | 


New York 


我 们 该 如 何 更 新 Alice 的 用 户 信息 记录 ? 从 标准 数据 库 角 度 看 ， 为 了 
实现 该 更 新 操作 的 原子 性 ， 我 们 需要 执行 以 下 步骤 : 打开 一 个 事务 ， 对 
所 有 的 副本 执行 写 操作 ， 同 所 有 的 副本 发 送 提交 信息 并 关闭 该 事务 。 这 
种 方法 和 标准 数据 库 的 ACID 模式 一 致 ， 保 证 所 有 的 副本 都 能 够 正确 
地 更 新 到 新 状态 。 即 使 是 非 ACID 模式 的 数据 库 ， 如 G 公 司 的 
BigTable(Chang 等 2006) ， 采 用 了 类 似 的 方法 来 同步 更 新 数据 的 所 有 副 
本 。 但 是 ， 当 存在 地 理 空 间 上 的 数据 复制 时 ， 该 方法 效率 很 低 。 当 Alice 
输入 她 的 状态 信息 并 点 击 “OK”， 由 于 需要 等 每 分 散在 各 地 的 数据 中 心 
提交 该 事务 ， 她 可 能 需要 等 竺 很 长 时 间 才 能 加 载 啊 应 页 面 。 此 外 ， 为 了 
保证 原子 性 ， 在 事务 处 理 过 程 中 ， 系 统 需要 对 Alice 的 状态 加 排他 锁 ， 这 
意味 着 其 他 用 户 可 能 长 时 间 无 法 看 到 Alice 的 状态 。 

由 于 当地 理 空 间 上 存在 不 同 副本 时 ， 原 子 事务 的 代价 很 高 ， 很 多 
Web 数 据 库 采用 了 “ 尽 最 大 努力 ”的 方式 (bst-effort approach): 先 将 更 新 写 
到 一 份 数 据 中 ， 然 后 异步 地 将 更 新 操作 传播 (popagate) 到 其 他 的 副本 。 
模拟 事务 操作 时 ， 不 执行 加 锁 及 验证 。 这 种 方法 ， 犹 如 其 名 一 一 “ 尽 最 
大 努力 ”， 存 在 很 多 困难 。 即 使 系统 能 够 保证 在 所 有 的 副本 上 执行 更 
































新 ， 也 不 能 保证 数据 库 的 不 同 副本 最 终 都 保持 一 致 性 。 比 如 ，Alice 首 先 
将 她 的 状态 更 新 为 “Busy”， 这 样 在 美国 西海 岸 (wst coast) 的 数据 中 心 需 
要 执行 写 操 作 ， 如 表 4-2 所 示 。 


表 4-2: 在 美国 西海 岸 的 数据 副本 上 执行 的 更 新 操作 


ELS | 美国 东海 岸 
用 户 名 状态 用 户 名 状态 
Alice Busy Alice 








然后 ，Alice 把 她 的 状态 更 新 为 “Off the phone”， 但 由 于 网 络 干扰， 该 
更 新 操作 误 在 美国 东海 岸 (est coast) 的 数据 副本 上 执行 ， 如 表 4-3 所 示 。 


表 4-3: 在 东海 岸 数据 副本 上 执行 的 第 二 次 更 新 操作 


| 美国 西海 岩 | | 美国 东海 岩 | 
| 用 户 名 状态 | | 用 户 名 | 状态 
Alice Busy Alice | Off the phone 








由 于 更 新 传播 是 异步 的 ， 一 个 可 能 的 事件 序列 如 下 : 在 美国 东海 翌 
的 数据 副本 上 首先 执行 “Off the phone” 更 新 操作 ， 然 后 执行 “Busy” 更 新 
操作 。 于 是 ， 通 过 有 线 传 播 ， 更 新 操作 如 表 4-4 所 示 。 


R44: 传播 中 的 两 个 更 新 交叉 


| 美国 西海 岸 。 | | 美国 东海 岸 
| 用 户 名 | 状态 | | 用 户 名 | 状态 
Alice Busy “Busy” Alice Off the phone 


“Off the phone” 


FEA AE, “Busy” WK ASE m f “Off the phone” 状 态 ; 而 在 美国 
西海 岸 ，“Off the phone" Dus ss f "Busy" Ds, xxu 8C de4-5 Tz BS) 
状态 不 一 致 性 。 


R45: 不 一 致 的 数据 副本 

美国 西海 岸 | 美国 东海 岩 

用 户 名 状态 APS 状态 
| Alice | Off the phone | Alice | Busy 


根据 读 取 数据 副本 的 不 同 ，Alice 的 好 友 看 到 的 Alice 的 状态 也 是 不 同 
的 ， 而 且 该 不 一 致 性 会 一 直 存 在 ， 直 到 Alice 再 次 改变 她 的 状态 。 

为 了 解决 上 述 问 题 ， 一 些 Web 规 模 (wb-scale) 的 数据 存储 实现 了 最 终 
一 致 性 策 (eentual consistency)， 如 上 述 的 不 正常 现象 可 能 暂时 发 生 ， 数 
据 库 最 终 将 会 解决 该 不 一 臻 性， 并 保证 所 有 的 数据 副本 都 有 相同 值 。 该 
策略 是 某 些 系统 的 核心 ， 如 Amazon 的 Web 服 务 S3。 最 终 一 致 性 策略 通 
常 使 用 如 闲话 (gssip) 和 反 焙 (ati-entrop 愉 的 技术 来 实现 。 但 是 ， 即 使 数据 
库 最 终 会 收敛 到 某 个 值 ， 也 很 难 预测 它 最 终 的 收 化 结果 。 因 为 没有 全 局 
时 钟 来 序列 化 所 有 的 更 新 操作 ， 数 据 库 难以 识别 Alice 的 最 终 状 态 更 新 
是 “Busy” 还 是 “Off the phone”， 因 此 最 后 有 可 能 会 收敛 为 "Busy” 状 态 。 
这 样 ， 正 当 Alice 准 备 和 好 友 聊 天 ， 她 的 所 有 好 友 都 认为 她 是 忙碌 的 ， 且 
在 Alice 再 次 更 新 她 的 状态 前 ， 这 种 不 正常 现象 会 一 直 存 在 。 

我 们 的 方法 

强 一 致 性 策略 《如 ACID 事务 ) 存在 扩展 上 的 局 限 性 ， 弱 一 致 性 策略 
《如 尽 最 大 努力 策略 或 最 终 一 致 性 策略 ) 可 能 存在 不 正常 现象 ， 我 们 提 
出 介 于 二 者 之 间 的 一 种 策略 ， 即 时 间 轴 一 致 (meline consistency) 策 略 : 
所 有 的 数据 副本 将 通过 相同 的 时 间 轴 执行 更 新 操作 ， 而 且 该 更 新 和 数据 
库 上 执行 的 更 新 顺序 相同 。 该 时 间 轴 如 图 4-1 所 示 。 因 此 ， 数 据 库 将 在 
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行 的 最 近 一 次 更 新 操作 之 后 的 值 。 


状态 : none 状态 : busy 状态 : off the phone 
—0— OO R 


图 4-1: Alice 状 态 的 更 新 操作 时 间 轴 

时 间 轴 一 致 性 是 这 样 实现 的 : 由 一 台 主 备份 服务 器 (mster copy, LA 
下 简称 主 备份 ) 执行 所 有 的 更 新 操作 ， 然 后 将 变化 异步 传播 到 其 他 备份 
服务 器 来 实现 的 。 该 主 备份 序列 化 所 有 的 更 新 操作 ， 并 确保 为 每 个 更 新 
指定 一 个 序列 号 。 即 使 在 更 新 的 异步 传播 中 存在 瞬间 的 故障 或 误 序 ， 访 
序列 号 的 次 序 是 和 需要 在 所 有 副本 上 执行 的 更 新 次 序 一 致 的 。 我 们 选择 
每 条 记录 一 个 主 备份 是 因为 雅虎 的 很 多 应 用 依赖 于 同一 张 数据 表 ， 该 表 
中 不 同 的 记录 对 应 不 同 的 用 户 ， 每 个 用 户 都 有 不 同 的 使 用 模式 (uage 
patterns)。 当 然 ， 有 可 能 为 主 备份 性 (mstership) 选 择 其 他 的 粒度 ， 比 如 每 
个 记录 分 区 《〈 如 基于 关键 字 ) 有 一 个 主 备份 。 

即使 是 在 同一 张 表 ， 不 同 记 录 的 主 备份 也 可 能 分 布 在 不 同 的 服务 器 
上 。 在 以 上 例子 中 ，Alice 住 在 美国 西海 岸 ， 并 在 美国 西海 岸 的 数据 副本 
有 一 条 主 备份 记录 ; 而 她 的 好 友 Bob 住 在 新 加 坡 ， 其 主 备份 记录 是 在 亚 
洲 地 区 的 副本 。 记 录 的 主 备 份 性 是 作为 记录 的 元 数据 域 (mtadata field) 存 
储 在 该 记录 本 里 ， 如 表 4-6 所 示 。 


























表 4-6: 包含 主 备份 性 和 版 本 元 数据 的 信息 表 
Username | MASTER VERSION | FullName 
Alice | West | 32 | Alice Smith 
Bob | Asia | 18 | Bob Jones 


Charles East 15 Charles Adams 


主 备份 似乎 和 我 们 的 原则 一 一 只 应 该 同步 执行 代价 低 的 操作 不 符 。 
如 果 Alice 去 纽约 旅行 ， 并 在 那里 更 新 她 的 状态 ， 由 于 她 的 个 人 信息 记录 
的 主 备份 在 美国 西海 是 ， 她 必须 等 每 系统 把 她 的 更 新 操作 提交 到 美国 西 
海岸 ; 这 种 高 延迟 的 路 州 更 新 操作 正 是 我 们 应 该 尽量 避免 的 。 由 于 用 户 
转变 使 用 模式 〈 如 Alice 的 旅行 ) ， 这 种 跨 数据 中 心 的 写 操作 确实 会 偶尔 
发 生 ， 但 几率 很 小 。 我 们 分 析 了 对 雅虎 的 用 户 数据 库 的 更 新 操作 ， 发 现 
记录 更 新 在 包含 主 备份 的 数据 中 心 上 执 行 的 概率 占 85%。 当 然 ，Alice 可 
能 迁移 到 美国 东海 恒 或 者 欧洲 ， 由 于 其 记录 的 主 备份 仍然 在 美国 西海 
尾 ， 她 执行 的 写 操作 就 不 再 是 在 本 地 执行 的 。 我 们 的 系统 会 追 踊 一 条 记 
录 更 新 的 源 起 ， 为 了 保证 绝 大 部 分 的 写 操作 还 是 在 本 地 执行 ， 系 统 会 根 
所 长 期 性 访问 模式 (acess pattern) 的 转变 来 修改 主 备份 性 。“〈 我 们 将 在 下 
一 章 更 详细 地 讨论 主 备份 性 。) 

当 应 用 读 取 一 条 记录 ， 它 通常 会 读 取 该 记录 的 本 地 副本 。 除 非 该 副 
本 标记 为 主 备份 ， 人 否则 其 数据 可 能 已 经 过 期 了 。 该 应 用 可 以 从 时 间 轴 识 
别 其 记录 实例 是 和 茶 个 版 本 的 记录 一 致 ， 但 是 它 无 法 从 记录 本 刁 识 别 该 
记录 是 否 为 最 新 版 本 。 如 宋 该 应 用 要 求 记录 必须 是 最 新 版 本 ， 系 统 人 允许 
它 发 送 最 新 读 (u-to-date read) 请 求 操 作 ， 该 请求 会 被 提交 到 主 备份 来 获 


























取 记 录 的 最 新 备份 。 执 行 最 新 读 操 作 代 价 很 高 ， 而 通常 情况 下 读本 地 副 
本 (可 能 数据 已 经 过 期 ) 的 代价 很 低 ， 这 和 系统 的 设计 原则 也 是 一 致 
的 。 幸 运 的 是 ，Web 应 用 通常 对 数据 时 效 性 要 求 较 低 ， 能 够 接受 过 期 数 
据 。 如 果 Alice 更 新 了 她 的 状态 ， 但 她 的 好 友 Bob 没 有 马上 看 到 ， 而 是 过 
后 不 久 看 到 其 新 状态 ， 也 是 可 以 接受 的 。 

应 用 可 以 执行 的 另 一 类 读 操作 是 “临界 读 ”(citical read)， 可 以 保证 从 
用 户 的 角度 来 讲 ， 数 据 只 随时 间 向 前 移动 。 假 设 有 这 样 的 情况 ，Alice 改 
变 了 她 的 头像 〈 表 示 一 个 用 户 的 图 片 ) ，Bob 可 能 会 看 Alice 的 信息 页 面 
《导致 对 数据 库 的 一 次 读 操 作 ) ， 并 看 到 了 Alice 的 新 头像 。 然 后 ，Bob 
可 能 会 刷新 该 页 面 ， 但 由 于 网 络 问题 ， 该 刷新 操作 被 重 定向 到 没有 执行 
Alice 头 像 更 新 的 副本 上 执行 。 结 果 是 Bob 将 看 到 的 数据 比 他 刚 看 到 的 版 
本 更 老 。 为 了 避免 应 用 程序 执行 这 些 操作 引起 的 这 种 不 正常 现象 ， 数 据 
库 为 读 操作 调用 返回 记录 时 会 附 上 该 记录 的 一 个 版 本 号 。 该 版 本 号 可 以 
保存 在 Bob 的 会 话 状态 (sssion state) 或 者 其 浏览 器 cookie 中 。 当 Bob 刷 新 
Alice 的 信息 页 面 时 ， 他 上 次 读 到 的 版 本 号 将 和 本 次 请 求 一 同 发 送 ， 数 据 
库 会 保证 返回 记录 的 版 本 不 会 老 于 该 版 本 。 这 可 能 需要 把 版 本 号 和 请 求 
提交 给 主 备份 。 指 定 版 本 号 的 读 操 作 被 称 为 “临界 读 ”"， 任 何 版 本 号 等 于 
旨 定 版 本 号 或 者 更 新 的 副本 ， 其 返回 的 结果 数据 都 是 可 以 接受 的 。 对 于 
先 更 新 再 读 取 数 据 库 的 用 户 ， 该 技巧 尤其 有 用 。 以 Alice 自 己 为 例 ， 当 她 
更 新 完 头 像 后 ， 如 果 有 任何 页 面 还 显示 其 旧 头 像 ， 她 一 定 会 感到 很 困 
惑 。 因 此 ， 当 她 执行 了 某 个 动作 需要 更 新 数据 库 〈 如 更 新 头像 ) 时 ， 应 


























用 程序 可 以 使 用 “临界 读 ” 机 制 来 保证 页 面 都 不 会 显示 她 的 旧 数 据 。 

我 们 也 支持 “测试 并 设置 (tst-and-set) 操 作 ， 该 操作 使 得 写 操 作 必 须 
依赖 于 当前 读 操 作 的 版 本 和 之 前 看 到 的 版 本 (其 版 本 号 作为 参数 传递 
给 “测试 并 设置 请求 ) 相同 。 从 传统 的 数据 库 系 统考 虑 ， 这 是 ACID 事 
务 的 一 个 特例 ， 它 限于 单 记 录 ， 使 用 的 是 乐观 并 发 控制 策略 (otimistic 
concurrency control). 

Ee to TERIS RR; Tl 

我 们 采用 了 各 种 技术 来 保证 即使 在 工作 负荷 变化 、 失 效 情 况 下 ， 都 
能 够 低 延 退 地 、 平 请 地 执行 读 写 操作 。 

举 个 例子 ， 正 如 我 们 之 前 所 述 ， 该 系统 实现 的 是 记录 级 (rcord-level) 
的 主 备 份 性 。 如 有 果 一 条 记录 的 很 多 写 操作 来 源 于 某 个 数据 中 心 而 不 是 当 
前 的 主 备份 ， 该 记录 的 主 备 份 性 将 被 及 时 地 转移 到 该 数据 中 心 ， 且 随后 
的 写 操作 将 在 该 数据 中 心 本 地 执行 。 此 外 ， 转 移 主 备份 性 代价 很 低 且 系 
统 可 以 自动 执行 ， 因 而 系统 可 以 快速 地 适应 工作 负荷 的 变化 。 

系统 还 实现 了 即使 在 存储 单元 失效 的 情况 下 ， 还 能 够 不 间断 地 执行 
读 写 操作 的 机 制 。 当 某 个 存储 单元 失效 ， 会 《手工 或 自动 ) 执行 对 该 存 
储 单元 的 履 盖 操作 (oerride)， 并 指示 另 一 个 数据 中 心 取代 失效 的 存储 单 
元 ，“〈 为 以 该 存储 单元 作为 主 备 份 的 记录 ) 执行 号 操作 。 系 统 会 采取 措 
施 〈 细 节 不 在 这 里 殉 述 ) ， 确 保 根据 在 失效 的 存储 单元 已 执行 的 更 新 操 
作 执 行 顺 序 履 盖 操 作 。 这 样 ， 当 其 他 的 数据 中 心 开 始 取代 失效 的 存储 单 
元 执行 更 新 操作 时 ， 还 能 够 保证 时 间 轴 一 致 性 。 




















在 PNUTS 中 ， 所 有 读 写 请 求 会 通过 路 由 层 来 定位 到 一 条 记录 相应 的 
数据 备份 (可 能 是 主 备份 )。 该 间接 层 (lvel of indirection) 是 提供 不 间断 
的 系统 可 用 性 (uinterrupted system availability) 的 关键 。 即 使 当 一 个 存储 
单元 失效 而 其 数据 恢复 到 另 一 个 存储 单元 ， 或 者 根据 使 用 模式 的 变化 转 
移 记录 的 主 备份 ， 这 些 变 化 对 于 上 层 应 用 也 是 透明 的 ， 应 用 依然 可 以 连 
接 到 路 由 嚣 ， 享 受 不 间断 的 系统 可 用 性 ， 其 请 求 可 以 无 颖 地 路 由 到 适当 
的 数据 中 心 。 

支持 有 序数 据 

PNUTS 系 统 架 构 上 同时 支持 散 列 分 区 和 范围 分 区 的 数据 。 我 们 称 散 
列 版 的 数据 库 为 YDHT， 即 雅虎 分 布 式 散 列表 (Yhoo!Distributed Hash 
Table); 称 有 序 表 版 的 数据 库 为 YDOT， 即 雅虎 分 布 式 有 序 表 
(Yhoo!Distributed Ordered Table)。 绝 大 多 数 系 统 不 关心 数据 的 组 织 方 
式 。 但 是 ， 有 个 重要 的 方面 对 物理 数据 的 组 织 方式 是 敏感 的 。 尤 其 是 采 
用 散 列表 方式 组 织 的 数据 ， 往 往 可 以 把 负载 很 均衡 地 分 散 到 不 同 的 服务 
器 。 如 果 数 据 是 有 序 的 ， 部 分 更 频繁 访问 的 关键 字 空间 (ky space) 将 会 出 
现 “ 热 点 ”htpob 效 应 。 比 如 ， 如 果 状 态 更 新 是 通过 时 间 排 序 ， 那 么 最 近 
的 更 新 是 用 户 最 感 兴趣 的 ， 则 包含 在 该 段 时 间 范 围 末 的 数据 分 区 的 服务 
器 负 茶 会 最 重 。 在 不 影响 系统 同 外 扩展 下 ， 我 们 不 允许 “热点 ”效应 持 
续 。 

逻辑 有 序 的 数据 实际 上 是 存储 在 物理 相连 的 记录 分 区 上 ， 但 是 当 分 
区 无 序 组 织 时 ， 这 些 数据 就 可 能 存储 在 多 台 物 理 服务 器 上 。 我 们 可 以 根 


























气 负 载 ， 动 态 移动 分 区 来 解决 “热点 ”效应 问题 。 如 果 一 合 服务 器 上 有 多 
个 热 分 区 (ht partition)， 可 以 把 这 些 分 区 移 到 负荷 较 低 的 服务 器 上 。 此 
外 ， 我 们 还 可 以 动态 划分 分 区 ， 这 样 茶 个 热 分 区 上 的 负载 可 以 分 散 到 几 
台 服 务 器 上 I 个。 这 种 在 存储 单元 间 移 动 和 划分 分 区 的 策略 和 先前 提 到 的 
改变 一 条 记录 的 主 备份 性 机 制 是 不 同 的 : 对 于 前 者 ， 改 变 记 录 的 主 备份 
会 导致 在 一 台 服 务 器 发 起 的 更 新 延迟 ， 但 通常 不 影响 给 定 记 录 分 区 记录 
的 累积 读 写 操作 负荷 。 需 要 划分 和 移动 分 区 的 一 个 特例 是 当 我 们 想 要 更 
新 或 插入 大 量 的 记录 。 在 这 种 情况 下 ， 如 果 不 采 取 特 殊 措施 ， 就 会 发 生 
只 疝 几 台 服 务 嚣 发 送 大 批量 更 新 操作 ， 从 而 导致 服务 器 负载 不 均衡 。 因 
此 ， 需 要 理解 更 新 操作 是 如 何 分 布 在 关键 字 空 间 (ky space)， 必 要 的 时 
候 ， 可 以 为 后 期 的 一 连 串 更 新 操作 预先 划分 和 移动 分 区 (Slberstein 等 
2008) 。 

我 们 把 应 用 和 物理 数据 组 织 细节 相 分 离 。 对 于 单 记录 的 读 写 操作 ， 
使 用 路 由 层 可 以 使 应 用 免 于 受 分 区 移动 和 划分 的 影响 。 对 于 范围 扫描 ， 
我 们 需要 提供 进一步 抽象 : 假设 我 们 需要 扫描 年 龄 在 21 一 30 岁 的 所 有 注 
有 册 用 户 ， 执 行 该 查询 可 能 意味 着 在 一 台 服 务 器 上 需要 扫描 包含 几 干 条 记 
录 的 数据 分 区 ， 在 男 一 台 服 务 器 上 扫描 男 一 个 分 区 等 。 每 个 分 区 有 几 干 
条 记录 ， 由 于 它们 在 磁盘 上 和 是 顺 序 存储 的 ， 因 此 可 以 快速 扫描 。 我 们 和 希 
望 这 些 分 区 的 移动 和 划分 对 于 应 用 是 透明 的 。 解 决 该 问题 的 一 个 巧妙 方 
式 是 借鉴 迭代 器 (ierator) 的 思想 : 当 应 用 执行 扫描 时 ， 我 们 返回 一 组 记 
录 ， 然 后 准备 好 下 一 组 记录 ， 触 发 应 用 继续 扫描 。 因 此 ， 当 应 用 执行 完 























一 次 批 处 理 ， 开 始 请 求 更 多 的 数据 时 ， 可 以 把 这 些 请 求 转换 到 包含 下 一 
组 记录 分 区 的 新 存储 服务 器 上 执行 。 

牺牲 一 臻 性， 换取 可 用 性 

时 间 轴 一 致 性 处 理 一 般 问题 效率 高 ， 且 语义 简洁 ， 但 它 也 并 不 完 
美 。 有 了 时， 整个 数据 中 心 册 演 如 断 电 ) 或 者 不 可 用 《如 断 网 ) ， 那 么 
以 该 数据 中 心 作为 主 备份 的 记录 将 不 可 写 。 这 种 情况 暴露 了 已 有 的 在 一 
致 性 、 可 用 性 和 分 区 容忍 性 (prtition tolerance) 上 的 平衡 问题 (tade-off): 
在 所 有 情况 下 ， 这 三 者 属性 只 能 保证 其 中 的 两 个 。 由 于 数据 库 是 全 球 性 
的 ， 分 区 必然 存在 且 不 会 造成 大 的 影响 ， 因 此 实际 上 我 们 只 需要 处 理 一 
致 性 和 可 用 性 间 的 平衡 。 如 果 一 个 数据 中 心 断 网 了 ， 可 能 有 些 新 的 更 新 
操作 还 没有 传播 到 其 他 的 数据 副本 ， 我 们 可 以 通过 两 种 方式 保证 一 致 
性 : 一 是 为 了 保持 一 致 性 ， 在 该 数据 中 心 可 用 前 ， 不 允许 执行 数据 更 
新 ;二 是 为 了 保持 可 用 性 ， 要 违背 时 间 轴 一 致 性 原则 ， 人 允许 一 些 更 新 操 
作 应 用 到 非 主 备份 的 记录 。 

系统 为 应 用 提供 了 基于 表 级 粒度 (pr-table basis) 来 选择 相应 策略 。 如 
果 对 于 某 个 特定 的 表 ， 可 用 性 对 于 该 应 用 的 优先 级 比 一 致 性 高 ， 那 么 当 
一 个 数据 中 心 断 网 时 ， 系 统 会 临时 转换 该 表 中 任何 不 可 用 记录 的 主 备份 
性 到 其 他 的 数据 中 心 。 该 决策 牺牲 时 间 轴 一 致 性 ， 有 效 地 支持 了 可 用 
性 ， 如 图 4-2 中 的 例子 所 示 。 当 恢复 完 一 个 不 可 用 的 数据 中 心 ， 系 统 会 
自动 协调 任何 有 冲突 的 更 新 记录 ， 并 通知 应 用 这 些 冲 突 信息 。 该 协调 保 
证 了 即使 不 能 满足 时 间 轴 一 致 性 ， 数 据 库 在 任何 数据 备份 上 都 能 收敛 到 





























相同 的 值 。 另 一 方面 ， 对 于 应 用 而 言 ， 如 果 一 致 性 优先 级 比 可 用 性 高 ， 
则 会 保持 时 间 轴 一 致 性 而 不 会 传递 主 备份 性 ， 这 样 ， 一 些 写 操作 执行 会 
失败 。 

对 于 菏 些 操作 ， 一 致 性 和 可 用 性 间 的 平衡 较 易 于 把 握 。 例 如 ， 假 设 
有 个 关于 投票 的 应 用 ， 用 户 可 以 对 各 种 问题 进行 投票 〈 如 “你 最 辟 欢 的 
颜色 是 什么 ? ”) ， 投 票 结果 作 为 计数 存储 在 数据 库 上 。 计 数 操作 《如 
增加 ) 是 可 交换 的 (cmmnutative)， 因 此 ， 在 不 破坏 时 间 轴 一 致 性 的 情况 
下 ， 甚 至 可 以 应 用 于 非 主 备 份 副本 上 。 一 般 来 说 ， 复 制 机 制 可 以 在 不 同 
副本 间 传 递 记录 的 新 版 本 ,， 但 是 对 于 可 交换 操作 ， 我 们 实际 上 是 传递 操 
作 〈 如 增加 〉 而 不 是 结果 值 。 那 么 ， 主 备份 在 任何 时 间接 收 到 操作 (不 
论 是 在 正常 的 数据 操作 期 间 还 是 在 休 个 数据 中 心 失效 后 )， 它 都 可 以 执 
行 该 操作 ， 而 不 需要 担心 操作 是 否 乱 序 。 该 策略 的 一 个 局 限 是 可 交换 和 
非 可 交换 的 操作 不 可 以 混合 : 因为 我 们 无 法 知道 如 何 合理 地 对 一 个 计数 
值 的 增加 操作 和 重 写 操作 进行 排序 ， 所 以 当 记 录 插 入 后 ， 茶 止 在 任何 时 
刻 对 其 计数 器 设 值 。 








状态 : off the phone 
美国 西海 岸 副本 





美国 东海 岸 副本 
状态 : asleep 状态 : good 
morning 


图 4-2: 西部 数据 中 心 断 网 ， 更 新 时 间 轴 产生 交叉 (frks) 





PNUTS 的 另 一 个 扩展 是 允许 对 多 条 记录 执行 更 新 操作 。 我 们 主要 研 
究 基 于 记录 级 的 时 间 轴 一 致 性 的 原因 是 很 多 Web 应 用 负载 涉及 在 某 一 时 
刻 对 单条 记录 的 更 新 操作 。 但 是 ， 有 时 更 新 多 条 记录 更 合适 。 例 如 ， 在 
社会 网 络 应 用 中 ， 可 能 存在 双向 好 友 链 接 : 如 果 Alice 和 Bob 是 好 友 ， 那 
么 Alice 会 出 现在 Bob 的 好 友 列 表 ， 同 样 ，Bob 也 会 出 现在 Alice 的 好 友 列 
表 。 因 此 ， 当 Alice 和 Bob 成 为 好 友 时 ， 我 们 需要 更 新 两 条 记录 。 因 为 系 
统 不 提供 ACID 事务 ， 所 以 无 法 保证 该 更 新 是 原子 性 的 。 但 是 ， 我 们 可 
以 采取 绑 定 式 写 操作 (bndled writes): 当 对 数据 库 执行 一 次 调用 时 ， 应 用 
可 以 请 求 两 个 写 操作 ， 数 据 库 会 保证 两 个 写 操作 最 终 都 会 执行 。 为 了 实 
现 这 点 ， 系 统 对 请 求 的 写 操作 写 日 志 ， 如 果 初 始 执行 失败 ， 系 统 会 重 试 
这 两 个 写 操作 ， 直 到 它们 都 成 功 。 该 方法 保证 了 记录 级 的 时 间 轴 一 致 
性 ， 由 于 重 试 可 以 异步 执行 ， 这 也 保证 了 系统 的 性 能 。 

总 之 ， 时 间 轴 一 致 性 为 记录 更 新 如 何 传播 提供 了 简单 的 语义 支持 
(Smantics)， 以 及 为 应 用 如 何 牺牲 读 延 到 来 换取 流通 性 (crrency) 提 供 了 有 灵 
活性 。 但 是 ， 它 并 不 支持 一 般 的 ACID 事务 ， 尤 其 是 执行 多 条 记录 的 读 
写 操作 事务 。 

[1 事务 具有 原子 性 、 一 致 性 、 隔 离 性 (不 受 其 他 并 发 事务 影响 ) 和 
持久 性 。 

站 细心 的 读者 可 能 会 发 现 ， 如 果 所 有 的 更 新 影响 包含 该 时 间 范 围 内 
的 分 区 ， 划 分 该 分 区 并 不 能 解决 问题 ， 需 要 一 些 其 他 方法 ， 如 通过 组 合 


关键 字 如 用 户 名 和 时 间 进 行 排序 。 

















复 林 查询 


随 着 Web 应 用 更 加 复杂 有 趣 ， 这 些 应 用 需要 以 新 的 不 同方 式 从 数据 
库 中 检索 和 组 合 信息 。 下 一 步 ， 我 们 将 探索 如 何在 大 规模 系统 上 支持 这 
些 查 询 。 

面临 挑战 

系统 对 只 需要 一 条 或 者 几 条 记录 的 查询 做 了 优化 。 尤 其 是 ， 系 统 可 
以 通过 主键 来 查询 记录 ; 只 要 知道 Alice 的 用 户 名 ， 就 可 以 直接 确定 哪个 
分 区 包含 她 的 信息 记录 ， 加 载 页 面 时 读 取 该 记录 。 另 外 ， 系 统 可 以 采用 
散 列 分 区 表 或 范围 分 区 表 来 存储 数据 。 对 于 范围 分 区 表 ， 可 以 通过 主键 
的 排序 范围 做 范围 扫描 。 例如， 系统 可 能 以 每 个 连接 一 条 记录 的 方式 存 
储 Alice 的 好 友 列 表 ， 其 中 每 个 连接 的 主键 是 Alice 和 她 好 友 的 用 户 ID 对 
〈 见 表 4-7) 。 








表 4-7: 好 友 关 系 表 











Charles 





对 于 范围 分 区 表 ， 所 有 以 “Alice” 为 前 级 的 记录 会 聚集 在 一 起 ， 因 
此 ， 只 需要 小 范围 扫描 就 可 以 检索 到 这 些 相关 记录 。 

现在 假设 我 们 需要 给 社交 网 络 站 点 添加 另 一 个 功能 。 在 该 站 点 中 ， 
用 户 可 以 发 布 照片 ， 对 其 他 人 的 照片 发 表 评论 。Alice 可 能 想 对 Bob、 
Charles 和 Dave 的 照片 发 表 评论 。 当 页 面 显示 一 张 照 片 ， 我 们 希望 它 也 能 
够 显示 和 该 照片 相关 的 一 组 用 户 评论 ， 同 时 还 想 为 Alice 显 示 她 对 其 他 人 
的 照片 做 出 的 一 组 评论 。 评 论 表 的 主键 设 定 为 (PotoID,CommentID)， 并 
以 有 序 的 YDOT 表 的 方式 存储 〈 见 表 4-8) ， 因 此 对 相同 照片 的 所 有 评论 
会 聚集 在 一 起 ， 可 以 通过 范围 查询 来 检索 。 





表 4-8: 照片 评论 表 


PhotolD CommentlD | Comment Commenter 





Photo123 18 Cool Mary 
Photo123 22 Pretty Alice 
Photol23 | 29 Interesting Charles 














系统 如 何 收集 Alice 做 出 的 所 有 评论 ? 它 需 要 对 Alice 的 信息 记录 《以 
username 为 主键 ) 和 评论 记录 〈 以 username 做 外 键 ) 做 连接 查询 。 由 于 
问 外 扩展 的 系统 架构 ， 数 据 分 区 跨越 很 多 服务 硕 ， 因 此 连接 操作 需要 访 
问 很 多 服务 器 。 该 操作 一 方面 青 要 连接 多 人 台 服 务 器 ， 另 一 方面 一 条 奏 询 
占用 大 量 的 服务 器 资源 (导致 其 他 的 请 求 啊 应 变 慢 ) ， 因 此 代价 很 高 ， 
增加 了 请 求 延迟 。 





在 回 外 扩展 的 系统 中 ， 男 一 种 代价 高 的 操作 是 聚集 (goup-by- 
aggregate) 查 询 。 假 定 用 户 指定 了 爱好 ， 系 统 想 要 计算 每 种 爱好 的 用 户 
数 ， 从 而 可 以 向 Alice 展 示 哪 种 爱好 是 最 受 欢迎 的 。 这 种 查询 需要 扫描 所 
有 的 数据 并 保存 计数 值 。 这 种 表 扫 描 操作 会 给 系统 带 来 巨大 的 负荷 ， 而 
且 不 能 够 同步 执行 ， 因 此 Alice 的 页 面 需要 非常 长 的 时 间 才 能 加 载 。 

这 些 例子 说 明了 虽然 单 点 查询 和 范围 扫描 可 以 快速 执行 ， 但 是 代价 
更 高 的 连接 和 聚集 查询 操作 不 能 够 同步 执行 。 

我 们 的 方法 

处 理 代价 高 的 操作 ， 核 心 原则 是 异步 执行 ， 但 是 代价 高 的 查询 实际 
上 不 能 够 以 这 种 方式 处 理 ; 我 们 不 希望 需要 Alice 不 断 返 回 检查 获取 其 所 
有 评论 的 异步 查询 是 否 已 经 执行 完成 。 

实例 化 视图 可 以 通过 异步 式 构建 (Aarawal 等 2009) ， 当 Alice 登 录 
时 ， 她 可 以 快速 《同步 ) 地 查询 该 视图 向 。 虽 然 和 基本 表 的 数据 相 比 ， 
异步 式 构建 的 视图 可 能 已 经 过 期 ， 但 由 于 应 用 本 来 就 需要 处 理 过 期 的 副 
本 ， 所 以 处 理 过 期 的 视图 数据 通常 是 可 以 接受 的 。 事 实 上 ， 我 们 把 实例 
化 视图 作为 一 种 特殊 的 副本 ， 该 副本 可 以 复制 数据 和 转换 数据 。 通 过 与 
更 新 副本 相同 的 机 制 来 更 新 视图 ， 系 统 保证 了 视图 和 复制 的 基本 表 数 
据 ， 有 相似 的 可 靠 性 和 一 致 性 保证 ， 而 不 需要 再 设计 和 实现 另 一 个 机 
制 |。 

虽然 视图 是 在 后 台 维 护 ， 但 是 我 们 还 是 希望 尽量 减少 它 的 代价 。 如 
果 维 护 视 图 占用 很 多 系统 资源 ， 或 者 它 会 影响 同步 的 读 写 请 求 〈 增 加 每 























个 查询 的 延迟 ) ， 或 者 会 被 分 配 很 少 的 资源 ， 运 行 很 慢 ， 这 样 视 图 数据 
会 严重 过 期 而 导致 视图 可 能 毫 无 用 处 。 因 此 ， 我 们 必须 探索 使 视图 维护 
高 效 的 策略 。 比 如 对 于 先例 ， 系 统 想 给 Alice 显 示 她 对 其 他 人 的 照片 做 出 
的 所 有 评论 。 系 统 将 创建 一 个 实例 化 视图 ， 该 视图 通过 外 键 《〈 评 论 员 的 
username) 而 不 是 主键 对 评论 数据 进行 重组 聚合 。 那 么 ，Alice 做 出 的 所 
有 评论 会 聚合 在 一 起 ， 我 们 还 可 以 给 视图 添加 Alice 的 信息 记录 ， 以 她 的 
username 为 主键 ， 因 此 Alice 的 信息 和 评论 可 以 聚合 在 一 起 。 主 键 /外 键 
连接 操作 如 同 扫描 并 连接 以 “Alice” 为 前 绥 的 视图 记录 一 样 简单 。 结 果 如 
表 4-9 所 示 。 


表 4-9: 信息 和 评论 记录 的 连接 和 聚合 





Alice West 32 Alice Smith | = 全 信息 记录 
Alice Photo! 23 22 Pretty sas c— 评论 记录 
Alice Photo203 43 Nice et J 


Alice Photo418 33 OK 





注意 ， 我 们 并 没有 在 视图 中 做 信息 和 评论 记录 的 预 连接 操作 ， 只 是 
通过 定位 需要 连接 的 记录 ， 使 得 连接 的 维护 代价 低 。 当 需要 对 基本 表 记 
录 做 更 新 操作 时 ， 我 们 只 需要 更 新 一 条 视图 记录 ， 即 使 该 视图 将 和 很 多 
其 他 记录 做 连接 操作 。 

我 们 如 何在 同一 个 表 存 储 信息 和 评论 记录 ? 在 传统 的 数据 库 ， 因 为 
两 种 记录 有 不 同 的 模式 (shemal)， 所 以 这 样 会 很 难 存储 。 但 是 ，PNUTS 
的 一 个 核心 特征 是 能 够 表示 灵活 的 数据 库 模 式 。 相 同 表 中 不 同 的 记录 可 














以 有 不 同 的 属性 组 。 这 个 特性 对 于 Web 应 用 特别 有 用 ， 因 为 Web 数 据 通 
常 稀 朴 松 散 ， 一 个 销售 商品 的 数据 库 根 据 商品 的 种 类 ， 会 有 不 同 的 属性 
(如 color、weight、RAM 和 flavor)。 灵 活 的 数据 模式 对 于 实现 实例 化 视 
图 连接 也 是 非常 重要 的 ， 这 样 我 们 可 以 定位 来 自 不 同 表 的 连接 记录 。 
异步 式 视图 方法 也 有 助 于 响应 其 他 类 型 的 查询 。 聚 集 查 询 可 以 通过 
实例 化 视图 预先 分 组 (pe-group)， 甚 至 可 以 预先 聚合 (pe-ag gregate) 数 
据 ， 因 此 可 以 有 效 地 响应 查询 。 甚 至 有 诸如 选择 非 主键 属性 的 “简单 查 
询 ， 这 种 查询 通过 实例 化 视图 方式 处 理 最 有 效 。 假 设 需 要 查询 住 在 加 州 
Sunnyvale 的 所 有 用 户 。 因 为 用 户 表 的 主键 是 username， 该 查询 通常 需要 
执行 代价 高 的 表 扫 描 操作 。 但 是 ， 我 们 可 以 采用 实例 化 视图 在 用 户 表 
的 "location” 域 构建 索引 ， 把 该 索引 存储 到 有 序 的 YDOT 表 ， 然 后 
在 “Sunnyvale,California” 的 索引 记录 上 执行 范围 扫描 来 获取 结果 ， 从 而 
响应 查询 请 求 〈 见 表 4-10) 。 


表 4-10: 地 理 位 置 索 引 






































Location | Username 
Sunnyvale, CA | Alice 
Sunnyvale, CA | Mary 
Sunnyvale, CA | Steve 
Sunnyvale, CA | Zach 








如 其 他 系统 中 的 实例 化 视图 ， 只 要 我 们 事先 知道 需要 什么 查询， 就 








可 以 有 效 地 创建 视图 。 对 于 提供 Web 服 务 的 应 用 ， 查 询 通常 是 根据 事先 
确定 的 模板 ， 在 运行 时 指定 参数 (如 地 理 位 置 或 用 户 名 〉 。 因 此 ， 应 用 
开发 者 可 以 预先 知道 哪些 查询 很 复 森 ， 需 要 实例 化 视图 。 为 了 即时 请 求 
存储 在 PNUTS 中 的 数据 ， 开 发 者 需要 使 用 PNUTS 插 件 从 系统 中 获取 数 

据 ， 并 把 数据 保存 到 运行 着 Hadoop 的 计算 网 格 。Hadoop 是 MapReduce 的 
开源 实现 。 当 有 一 些 不 同 的 机 制 来 处 理 复杂 的 得 询 ， 实 现 有 助 于 有 效 执 
行 查 询 的 查询 计划 器 是 非常 有 用 的 。 查 询 计划 器 可 以 减轻 应 用 开发 者 的 
负担 ， 它 可 以 写 声明 性 查询 (dclarative queries)， 而 不 需要 考虑 这 些 查询 
将 如 何 执行 。 但 是 ， 对 于 如 PNUTS 的 大 规模 系统 ， 有 效 的 查询 计划 占 需 
要 复杂 的 统计 收集 、 负 载 监 测 、 网 络 监 测 和 一 系列 其 他 机 制 来 保证 查询 
计划 堪 对 于 系统 的 所 有 可 能 瓶 肛 有 足够 的 信息 来 制定 最 有 效 的 查询 计 

划 。 

站 在 PNUTS 系 统 的 生产 版 本 中 ， 还 不 包含 实例 化 视图 。 














和 其 他 系统 的 比较 


当 我 们 开始 思考 PNUTS 时 ，G 公 司 和 Amazon 已 经 宣布 了 两 个 大 规模 
可 扩展 性 数据 库 系 统 ， 微 软 也 将 对 外 宣布 。 当 我 们 开始 设计 时 ， 我 们 仔 
细 研 究 了 这 些 系统 ， 思 考 它们 的 思想 是 否 对 我 们 有 用 。 这 些 系统 的 一 些 
想法 对 我 们 有 影响 ， 但 我 们 还 是 决定 构建 一 个 新 的 系统 ， 其 架构 在 很 多 


方面 和 这 些 系统 不 同 。 我 们 现在 先 来 研究 这 些 系 统 ， 并 讨论 为 什么 决定 
不 采用 它们 的 设计 理念 。 
G 公 司 的 BigTable 


BigTable(Chang 等 2006) 是 为 了 文 持 G 公 司 的 很 多 Web 应 用 而 设计 的 
系统 。 该 系统 基于 水 平方 式 将 “大 表 ”(bg table) 切 分 为 很 多 小 表 (tblet)， 并 
把 这 些小 表 分 散 到 不 同 的 服务 器 上 。 支 持 可 扩展 性 的 基本 方法 以 及 一 些 
其 他 特性 ， 比 如 灵活 的 模式 和 有 序 存储 ， 与 我 们 采用 的 方法 很 相似 。 但 
是 ， 我 们 的 设计 和 BigTable 在 某 些 方面 有 区 别 。 

首要 区 别 是 数据 复制 方式 不 同 。BigTable 是 构建 在 G 公 司 的 文件 系统 
GFS 上 (Gemawat 等 2003) 。GFS 通 过 同步 更 新 三 个 数据 备份 到 三 台 不 同 
的 服务 器 上 的 方式 来 处 理 数据 备份 。 这 种 方法 在 一 个 数据 中 心 可 以 工作 
良好 ， 因 为 一 个 数据 中 心 的 服务 器 间 的 延迟 很 短 。 但 是 ， 在 三 个 不 同 
的 、 分 散 的 数据 中 心 同步 更 新 三 台 服 务 器 代价 很 高 。Alice 可 能 需要 等 待 
很 长 的 时 间 ， 然 后 其 状态 才能 更 新 ， 尤 其 是 如 果 她 的 好 友 通 过 带宽 很 低 
的 网 络 来 访问 数据 中 心 。 为 了 文 持 跨 数据 中 心 的 数据 复制 ， 我 们 提出 了 











时 间 轴 一 致 性 模式 ， 以 及 与 主 备份 性 、 负 载 平 衡 和 失效 处 理 相 关 的 机 
制 |。 

BigTable 和 GFS 在 数据 库 服务 器 和 文件 系统 间 存 在 分 离 ， 而 PNUTS 
不 采用 该 分 离 。GFS 最 初 是 为 需要 对 大 文件 进行 扫描 的 应 用 设计 和 优化 
的 (如 MapReduce)。 a nn 
联 ， 并 把 文件 以 SSTables 的 文件 格式 压缩 来 减少 存储 空间 。 这 意味 着 对 
于 记录 的 读 和 更 新 操作 ， 数 据 需 要 采用 这 种 压缩 格式 解码 和 编码 。 此 
外 ，GFS 的 特征 是 面向 扫描 ， 这 有 助 于 BigTable 处 理 面 向 列 的 扫描 应 用 
《如 “返回 所 有 用 户 的 所 有 地 理 位 置信 息 ”) 。 与 之 相反 ， 我 们 的 主要 应 
用 是 需要 读 和 更 新 一 个 小 范围 记录 内 的 一 条 记录 的 一 个 版 本 。 因 此 ， 我 
们 的 策略 是 把 数据 作为 完整 的 记录 ， 以 B 树 形式 组 织 保存 在 磁盘 上 。 
种 方法 对 快速 定位 、 就 地 更 新 由 主键 识别 的 各 条 记录 做 了 优化 。 

PNUTS 和 BigTable 在 其 他 方面 还 有 不 同 。 比 如 ，PNUTS 对 于 一 个 应 
用 支持 多 个 表 ， 而 不 是 一 个 大 表 ， 且 对 于 散 列 表 和 有 序 表 都 支持 。 
MegaStore 是 继 BigTable 之 后 (Frman 等 ，2008) 添加 了 事务 、 索 引 和 更 丰 
富 的 API， 但 仍然 遵循 BigTable 中 的 基本 架构 原则 。 

Amazon 的 Dynamo 

Dynamo(DeCandia 等 2007) 是 Amazon 最 近 构 建 的 应 用 于 大 规模 数据 
负荷 的 系统 ， 是 和 我 们 的 高 可 用 性 、 大 规模 数据 存储 的 目标 最 相近 的 一 
个 系统 (Dnamo 中 称 记录 为 对 象 ) 。Dynamo 通 过 允许 应 用 向 任何 副本 写 
数据 提供 了 写 操作 可 用 性 ， 它 通过 Gossip 协 议 〈 稍 后 会 细 述 ) 向 其 他 副 



































本 延缓 传播 (lzily propagate) 这 些 更 新 操作 。 

为 了 解决 网 速 慢 和 易于 失效 问题 ，Dynamo 和 PNUTS 一 致 ， 它 们 都 采 
用 了 延缓 传播 更 新 策略 (lzily propagate updates)。 但 是 ，PNUTS 的 复制 策 
略 与 之 有 很 大 区 别 。 在 Gossip“〔〈 闲 话 ) 协议 中 ， 更 新 操作 会 传播 到 随机 
选 定 的 副本 ， 该 副本 又 把 该 操作 继续 传播 到 其 他 随机 选 定 的 副本 。 这 种 
随机 性 是 该 协议 提供 的 概率 性 保证 的 基础 ， 它 保证 了 绝 大 多 数 副 本 可 以 
相对 快速 更 新 。 然 而 ， 在 我 们 的 应 用 环境 中 ， 随 机 性 必然 是 次 优 的 。 比 
如 Alice 执 行 状态 更 新 操作 ， 其 数据 是 在 美国 西海 岸 的 数据 中 心 。 若 采用 
Gossip 方 式 ， 该 操作 可 能 随机 传播 到 新 加 坡 的 副本 ， 然 后 又 随机 传播 到 
Texas 的 副本 ， 接 着 又 随机 传播 到 东京 的 副本 。 该 更 新 操作 在 传播 地 域 
上 跨越 了 三 次 太平 洋 ， 如 果 采 用 一 种 更 确定 性 方式 (dterministic 
approach)， 只 需要 传播 该 操作 (和 其 他 更 新 操作 ) 一 次 ， 可 以 节约 紧缺 
的 跨 太 平 洋 主干 带宽 。 此 外 ，Gossip 要 求 传播 数据 的 副本 预先 知 道 在 其 
他 哪个 数据 中 心 的 哪 台 服务 器 上 有 副本 ， 因 此 很 难为 了 负载 均衡 或 数据 
恢复 ， 在 不 同 服务 器 间 传 送 数据 。 

PNUTS 和 Dynamo 的 另 一 个 关键 区 别 是 一 致 性 协议 。Gossip 协 议 的 本 
质 决 定 了 它 是 最 终 一 致 性 模型 所 有 的 数据 副本 最 终 将 保持 一 致 ， 但 是 
在 更 新 传播 期 间 ， 副 本 可 能 是 不 一 致 的 。 尤 其 是 ， 副 本 可 能 会 存在 “无 
效 " 状 态 。 举 个 例子 ，Alice 把 她 的 状态 从 *Sleeping”? 改 为 "Busy”， 再 把 地 
理 位 置信 息 从 “Home” 改 为 “work”。 由 于 更 新 的 次 序 ， 从 Alice 的 角度 出 
发 ， 唯 一 有 效 的 记录 状态 是 (Seeping,Home)、(Bsy,Home) 和 














(Bsy,Work)。 在 最 终 一 致 性 原则 下 ， 如 果 两 个 更 新 是 在 不 同 的 数据 副本 
上 执行 的 ， 有 些 副 本 可 能 会 首先 接收 到 改 为 “Work” 的 更 新 ， 这 样 ， 这 些 
副本 将 临时 显示 (Seeping,Work) 状 态 。 如 果 Alice 的 老板 看 到 这 种 状态 ， 
Alice 可 能 就 有 麻烦 了 。 对 依赖 于 在 一 条 记录 上 以 合理 的 次 序 执行 多 次 更 
新 的 应 用 ， 它 需要 比 最 终 一 致 性 更 严格 的 执行 次 序 保证 。 虽 然 时 间 轴 一 
致 性 模式 允许 副本 已 经 过 期 ， 但 即使 是 过 期 的 副本 也 应 该 是 和 某 个 合理 
的 更 新 次 序 一 致 的 版 本 。 

PNUTS 和 Dynamo 还 有 很 多 其 他 区 别 : Dynamo 只 支持 散 列 表 ， 不 文 
持 有 序 表 ，PNUTS 二 者 都 支持 ;和 Dynamo 相 比 ，PNUTS 支 持 更 灵活 的 
数据 到 服务 器 的 映射 机 制 ， 可 以 提高 负载 均衡 和 数据 恢复 〈 尤 其 是 对 于 
有 序 表 ， 可 能 存在 不 可 预测 的 “热点 ”>) 。 除 了 DynamO'Amazon 还 提供 其 
他 的 存储 系统 : S3 用 于 存储 数据 块 ; SimpleDB 用 于 在 结构 化 、 包 含 索 
引 的 数据 上 执行 复杂 查询 。 虽 然 SimpleDB 提 供 了 更 丰富 的 API， 但 是 它 
需要 应 用 实现 某 种 数据 分 区 策略 ， 使 得 每 个 分 区 都 有 固定 的 大 小 限制 。 
因此 ， 一 个 分 区 内 的 数据 增长 是 受 限 的 。 

微软 的 Azure SDS 

作为 Azure 服 务 提 供 的 一 部 分 ， 微 软 构 建 了 大 规模 的 SQL Server 服 务 
器 ， 称 为 SQL 数据 服务 (SL Data Service 或 SDS， 参 见 
http: /hadoop.apache.org)。SDS 的 核心 是 通过 水 平分 区 达到 系统 的 可 扩 - 
展 性 。SDS 的 一 个 良好 的 特性 是 它 通过 扩展 数据 索引 ， 并 以 SQL Server 
作为 查询 处 理 引 擎 ， 提 高 了 查询 能 力 。 人 然而，SDS 通 过 严格 的 分 区 来 实 

















现 其 查询 表达 能 力 : 如 果 应 用 创建 自己 的 分 区 ， 则 无 法 简单 地 进行 重 分 
区 。 因 此 ， 昌 然 可 以 对 一 个 数据 分 区 发 出 丰富 的 查询 请 求 ， 如 果 某 个 数 
据 分 区 数据 量 增长 或 者 访问 很 多 ， 那 么 系统 无 法 简单 或 自动 地 通过 划分 
分 区 来 解决 < 热点” 效应。 我 们 的 策略 是 通过 表 抽 象 层 ， 使 得 为 加 载 和 恢 
复数 据 而 做 的 数据 分 区 或 者 改变 这 些 分 区 对 于 上 层 应 用 是 透明 的 。 虽 然 
PNUTS 的 查询 模式 表达 能 力 不 如 SDS(PNUTS 不 支持 跨 分 区 的 复杂 查 

询 ) ， 但 是 我 们 还 在 继续 探索 增强 PNUTS 查 询 功 能 (如 前 面 描述 的 通过 
视图 的 方式 ) 的 策略 。 

PNUTS 和 SDS 的 另 一 个 区 别 是 PNUTS 系 统 把 地 理 复制 作为 内 建 的 主 
要 特征 。 人 至 少 对 于 SDS 的 第 一 版 本 ， 其 工作 负荷 是 期 望 全 部 在 一 个 数据 
中 心 ， 只 有 当主 副本 全 部 崩 演 时 ， 才 会 使 用 远程 备份 。 我 们 希望 Alice 在 
新 加 坡 、 柏 林 和 里 约 热 内 卢 (巴西 ) 的 好 友 都 能 够 有 他 们 自己 本 地 的 
Alice 更 新 的 首要 备份 。 

其 他 相关 系统 

和 我 们 的 系统 类 似 ， 一 些 需要 扩展 性 和 灵活 性 的 其 他 公司 ， 也 构建 
了 很 多 其 他 系统 。Facebook 构 建 了 Cassandra 系 统 (Lkshman 等 2008) ， 它 
是 一 个 P2P(Peer-to-Peer， 对 等 网 络 ) 的 数据 存储 ， 其 数据 模型 类 似 于 
BigTable， 架 构 类 似 于 Dynamo， 系 统 只 提供 最 终 一 致 性 。 

Sharded 数 据 库 (如 Flickr[Pattishall]] 和 Facebook[Sobel 2008] 使 用 的 
MySQL 的 分 区 (sarding) 策 略 》 通 过 把 数据 分 区 到 很 多 服务 器 上 来 提供 可 
扩展 性 。 但 是 ，Sharding 系 统 并 没有 提供 我 们 所 期 望 的 扩展 灵活 性 或 全 














球 数 据 复制 特征 。 和 SimpleDB 类 似 ，Sharded 数 据 库 的 数据 需要 预 分 
区 。 此 外 ， 访 数据库 只 有 一 个 副本 可 以 是 主 备份 ， 执 行 写 操作 。 在 
PNUTS 中 ， 不 同 数 据 中 心 的 所 有 副本 都 可 以 执行 写 操作 (虽然 是 对 不 同 
的 记录 ) 。 

雅虎 的 其 他 系统 

PNUTS 是 雅虎 构建 的 众多 云 系统 中 的 一 个 。 在 数据 管理 中 ， 还 包含 
云 计 算 的 其 他 两 个 方面 ， 但 是 研究 的 问题 和 PNUTS 不 同 。Hadoop 是 
MapReduce 框 架 (Dan 和 Ghemawat2007) 的 开源 实现 
(htp: /hadoop.apache.org)， 它 提供 了 在 大 数据 文件 上 的 大 规模 并 行 分 析 
处 理 。Hadoop 的 文件 系统 HDFS， 对 扫描 操作 做 了 优化 ， 因 为 
MapReduce 主 要 是 处 理 面 癌 扫 描 的 操作 。 与 之 相反 ，PNUTS 主 要 是 处 理 
单条 记录 读 写 操作 。 另 一 个 系统 MObStor 是 为 了 存储 和 服务 大 数据 对 象 
如 图 片 和 视频 而 设计 的 。MObStor 的 目标 是 为 静态 对 象 提供 低 延 迟 检索 
和 低 代 价 存储 。 因 为 很 多 应 用 需要 结合 记录 存储 、 数 据 分 析 和 对 象 检 
条 ， 我 们 正在 探索 无 颖 地 集成 这 三 个 系统 (Coper 等 2009) 。 








结论 


当局 动 PNUTS 项 目 时 ， 我 们 希望 该 系统 能 够 无 颖 地 扩展 到 跨 域 多 个 
州 的 成 干 上 万 的 服务 器 。 构 建 这 样 的 系统 不 仅 需 要 巧妙 的 工程 技术 ， 也 
要 求 我 们 在 数据 库 很 多 已 有 的 领域 继续 探索 。 虽然 放弃 ACID 特 性 是 相 
对 轻松 的 决策 ， 但 是 我 们 很 快 发 现 需要 提出 其 他 的 方案 来 取代 它 ， 因 此 
我 们 提出 了 时 间 轴 一 致 性 模型 。 虽 然 该 模型 在 设计 上 相对 简单 ， 但 处 理 
复杂 的 极 问 案 例 (cmner cases)， 提 出 有 效 的 实现 机 制 以 及 构建 应 用 用 例 模 
型 都 需要 友 复 深入 的 思考 。 值 得 一 提 的 是 ， 刚 开始 我 们 的 客户 和 我 们 目 
己 都 不 太 关 心 该 系统 只 支持 简单 的 查询 语言 的 不 足 。 但 是 ， 随 着 开发 者 
开始 试看 在 PNUTS 上 构建 真正 的 应 用 ， 我 们 意识 到 该 系统 不 能 处 理 的 小 
部 分 复杂 查询 将 影响 该 系统 被 采用 。 如 果 我们 不 提出 解决 这 些 问题 的 机 
制 ， 那 么 开发 者 束 需 要 采用 一 些 复杂 的 变通 方案 ， 在 应 用 内 部 实现 代价 
局 的 操作 (如 髓 套 连 接 ) 或 者 是 频繁 地 将 数据 导出 到 其 他 的 索引 来 支持 
他 们 应 用 的 工作 负 蓓 。 

该 领域 是 云 数据 管理 的 新 兴 领 域 ， 这 在 很 多 其 他 可 选 系 统 设计 的 构 
建 和 部 署 中 也 体现 出 来 。 我 们 希望 PNUTS 的 思想 有 助 于 我 们 更 接近 构建 
易于 管理 、 广 泛 应 用 、 多 租户 (mltitenanted) 云 数据 库 系 统 的 目标 ， 为 应 
用 提供 弹性 、 高 效 、 全 球 可 用 的 和 无 比 健壮 的 数据 后 合 。 
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第 5 革 ”信息 平台 和 数据 科学 家 的 兴起 


Jeff Hammerbacher 


图 书馆 和 大 脑 


在 我 17 岁 时 ， 我 丢掉 了 在 印第安 纳 州 Fort Wayne 的 Scott 杂货 铺 的 出 
纳 员 工作 。 在 我 上 大 学 前 仅仅 两 个 月 里 ， 我 看 到 了 没有 工作 带 来 的 机 
遇 。 我 没有 告诉 父母 自己 被 解雇 了 。 每 天 下 午 ， 我 依然 穿着 出 纳 员 的 工 
作 服 离开 家 : 黑色 裤子 、 黑 色 皮 鞋 、 白 色 衬 衫 ， 还 有 置 衫 。 在 父母 看 
来 ， 我 这 身 穿着 是 为 严谨 的 账单 审查 工作 准备 ， 实 际 上 ， 我 是 要 在 公共 
图 书馆 看 10 个 小 时 的 书 。 

所 有 好 奇 心 强 的 人 都 想 知道 大 脑 是 如 何 工 作 的 ，17 岁 的 我 更 是 超 平 
寻常 的 好 奇 。 我 在 图 书馆 里 学 习 大 脑 如 何 工 作 、 休 息 和 重建 。 除 了 使 我 
们 保持 平衡 、 调 整体 温 、 不 时 地 有 皮 肯 上 腿 ， 大 脑 还 摄取 、 处 理 和 生成 大 量 
的 信息 。 我 们 对 周围 的 环境 产生 无 意识 的 条 件 反 射 ， 养 成 短期 口头 禅 和 
肢体 特征 ， 做 出 择偶 和 教育 的 长 期 计划 。 大 脑 令 人 感 兴 趣 的 不 仅仅 是 它 
对 感官 数据 做 出 反应 的 能 力 ， 而 是 作为 信息 库 ， 生 成 计划 和 创建 新 的 信 
息 。 我 很 想 知道 它 是 如 何 工作 的 。 

然而 ， 大 脑 的 特点 是 其 存储 的 信息 只 在 一 个 人 身上 。 为 了 从 很 多 大 
脑 收 集 信息 ， 我 们 建造 了 图 书馆 。 为 了 今后 的 利用 ， 图 书馆 科学 领域 已 
经 为 图 书馆 的 信息 存储 发 展 了 众多 的 技术 。 关 于 该 课题 的 一 个 有 趣 的 读 
本 是 Alex Wright 的 《Glut》(Jseph Henry 出 版 ) 。 除 了 为 今后 检索 存储 信 
息 ， 图 书馆 在 创建 新 信息 方面 也 起 了 重大 作用 。 正 如 哲学 家 Daniel 
Dennett 所 说 的 : “学 者 即 是 以 图 书馆 的 方式 创建 另 一 个 图 书馆 ”(a 











scholar is just a library's way of making another library). 

图 书馆 和 大 脑 是 信息 平台 的 两 个 例子 。 它 们 是 组 织 进行 摄取 、 处 理 
和 生成 信息 的 场所 ， 它 们 加 速 了 从 经 验 数据 中 学 习 的 过 程 。 当 我 在 2006 
年 加 入 Facebook 时 ， 很 自然 地 开始 构建 了 一 个 信息 平台 。 因 为 Facebook 
用 户 数量 剧 增 ， 我 们 团队 构建 的 系统 最 终 需 要 管理 几 十 亿 兆 字 节 
(ptabyte,PB)I 的 数据 。 在 本 章 中 ， 我 将 详细 阐述 在 构建 Facebook 信 息 
台 过 到 的 挑战 ， 以 及 在 开源 软件 上 构建 解决 方案 过 程 中 汲取 的 教训 。 我 
还 会 概述 在 利用 信息 构建 数据 密集 型 产品 和 服务 ， 并 且 帮 助 整个 企业 制 
定 、 实 现 目 标 过 程 中 ， 数 据 科 学 家 所 起 到 的 重大 作用 。 在 整个 过 程 中 ， 
我 还 会 描述 一 些 其 他 企业 在 过 去 几 十 年 里 如 何 构建 信息 平台 来 处 理 这 些 
问题 。 

在 开始 介绍 前 ， 首 先 需要 指出 的 是 我 去 图 书馆 而 不 是 去 杂货 店 的 计 
划 还 是 很 快 泡汤 了 。 自 在 地 读 了 几 天 后 ， 某 天 晚上 我 从 图 书馆 出 来 时 ， 
却 找 不 到 车 子 了 。 对 我 来 说 ， 在 那 时 丢 车 很 平常 ， 但 是 停车 场 是 空 的 ， 
所 以 我 知道 出 事 了 ; 最 后 是 母亲 发 现 了 我 的 伎俩 ， 把 我 的 车 拖 走 了 。 在 
走 回 家 的 漫长 路 上 ， 我 在 心里 学 会 了 一 课 : 带 着 怀疑 的 态度 来 考虑 
自己 的 策略 ， 另 外 ， 不 要 和 母亲 斗智 。 

[11PB(petabyte)21024TB, 1'TB(terabyte)=1024GB 
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在 2005 年 9 月 ，Facebook 首 次 癌 非 大 学 生 公 开 ， 人 允许 高 中 生 注 册 账 
号 。 上 忠实 的 用 户 愤 怒 了 ， 但 Facebook 团 队 认为 这 是 为 网 站 做 出 的 正常 方 
向 。 那 么 它 该 如 何 证 明 它 的 方案 是 正确 的 呢 ? 

此 外 ， 在 几乎 所 有 可 登录 Facebook 网 站 的 学 校 中 ，Facebook 已 经 渗 
入 学 生 当 中 ， 但 还 是 在 有 部 分 学 校 中 ， 该 网 站 一 直 不 受 青睐 。 和 那些 更 
成 功 的 网 络 相 比 ， 这 些 落 后 的 网 络 对 于 Facebook 有 什么 区 别 呢 ? 
Facebook 团 队 应 该 如 何 做 才能 激励 他 们 的 成 功 ? 

当 我 在 2006 年 2 月 参加 Facebook 面 斌 时， 他们 正 积极 地 期 望 找到 这 些 
问题 的 答案 。 我 兽 在 大 学 学 习 数学 ， 在 华尔街 工作 近 一 年 ， 工 作 内 容 是 
构建 模型 来 预测 利率 、 价 格 复杂 的 衍生 产品 和 对 冲抵 押 贷 款 池 ; 有 一 定 
编程 经 验 ，GPA 成 绩 “ 上 暗淡”。 虽 然 我 的 背景 可 能 不 太 理想 ， 但 是 
Facebook 却 给 了 我 研究 科学 家 的 职位 。 

几乎 同时 ，Facebook 聘 用 了 一 个 报告 分 析 主 管 。 该 主管 在 解决 问题 
方面 的 经 验 远 远 超 过 我 。 我 们 和 另外 一 个 工程 师 一 起 ， 开 始 着 手 构建 一 
个 数据 收集 和 存储 平台 ， 以 便 找 到 我 们 产品 以 上 问题 的 答案 。 

我 们 第 一 个 尝试 是 构建 一 个 离线 信息 库 ， 其 涉及 两 个 方面 : 一 是 用 
Python 脚 本 把 查询 分 发 到 Facebook 的 MySQL 服 务 器 层 ， 二 是 采用 C++ 实 
现 守护 进程 ， 实 时 地 处 理事 件 日 志 。 当 脚本 可 以 如 期 运行 ， 我 们 每 天 收 
集 大 约 10GB 的 数据 。 我 后 来 明白 系统 的 这 部 分 通常 称 为 “ETL” 过 程 ， 即 








抽取 、 转 换 和 加 载 。 

Python 脚本 和 C++ 守护 进程 从 Facebook 的 数据 源 系 统 中 抽取 数据 ， 然 
后 这 些 数据 又 被 加 载 到 MySQL 数 据 库 用 于 离线 查询 。 我 们 在 包含 这 些 
数据 的 MySQL 上 又 运行 了 一 些 脚 本 和 查询 ， 对 数据 进行 聚集 ， 以 便 得 
到 更 有 用 的 表现 方式 。 这 种 用 于 决策 支持 的 离线 数据 库 即 “数据 仓 
FE"(Dta Warehouse). 

最 后 ， 通 过 简单 的 PHP 脚 本 把 数据 从 离线 的 MySQL 数 据 库 抽 取出 
来 ， 回 内 部 用 户 展示 收集 到 的 信息 摘要 (smmary)。 这 是 我 们 第 一 次 可 以 
回答 网 站 特性 对 用 户 行 为 的 影响 。 早 期 通过 以 下 几 种 渠道 分 析 最 大 化 增 
K: 登 出 用 户 的 默认 页 面 的 布局 、 邀 请 来 源 、Email 联 系 方式 导入 器 的 
设计 。 除 了 以 上 分 析 ， 我 们 开始 通过 历史 数据 开发 简单 的 产品 ， 包 括 对 
赞助 商 成 员 特 性 进行 聚集 的 内 部 项 目 。 实 践 证 明 ， 该 项 目 很 受 品牌 广告 
商 欢 迎 。 

我 那 时 没有 意识 到 ， 实 际 上 ， 通 过 ETL 框 架 、 数 据 仓 库 和 内 部 控制 
台 (dshboard)， 我 们 已 经 构建 了 一 个 简单 的 “商业 智能 ”(Bsiness 
Intelligence) 系 统 。 














商业 智能 系统 


在 1958 年 [BM 系统 期 刊 的 一 篇 论文 中 ，Hans Peter Luhn 描 述 了 一 个 系 
统 ， 该 系统 基于 每 个 有 用户“ 动作 点 *(ation points) 的 “兴趣 信息 ”(iterest 
profiles)， 将 文件 通过 “选择 性 传播 ”(slective dissemination) 到 动作 点 上 。 
作者 描绘 了 令 人 震撼 的 预测 科学 理论 。 该 文章 的 标题 是 “一 个 商业 智能 
系统 ”， 它 是 “商业 智能 ”这 一 术语 在 现代 环境 中 的 第 一 次 应 用 。 

除了 实时 信息 传播 ， 该 系统 还 可 以 进行 “信息 检索 ”， 即 搜索 ， 可 以 
在 全 文 资料 库 中 执行 。Luhn 强 调动 作 点 ， 突 出 了 信息 处 理 角 色 在 完成 任 
务 中 的 重要 性 。 换 句 话 说， 仅仅 收 集 并 聚集 数据 是 不 够 的 ， 由 于 利用 数 
据 进行 推断 的 洞察 力 很 重要 ， 企 业 必 须 提 高 能 力 来 完成 艰巨 的 任务 。 他 
还 提出 “报告 人 ”需要 周期 性 地 筛选 数据 ， 有 选择 地 将 信息 移 到 需要 的 动 
作 点 上 。 

从 Luhn 的 论文 发 表 之 后 ， 商 业 智 能 领域 在 过 去 五 年 得 到 不 断 发 
FE, “商业 智能 ”这 个 术语 和 结构 化 数据 的 管理 更 加 紧密 相关 。 今 天 ， 经 
典 的 商业 智能 系统 是 由 ETL 框 架 和 商业 智能 工具 组 成 : ETL 有 规律 地 把 
一 组 数据 源 中 的 数据 抽取 出 来 并 加 载 到 数据 仓库 中 ;商业 分 析 师 利用 商 
业 智 能 工具 在 该 数据 仓库 上 生成 报告 供 内 部 使 用 。 那 么 ， 我 们 是 如 何 从 
Luhn 的 愿景 走 到 今天 ? 

在 1970 年 ，E.F.Codd 首 先 提出 了 关系 模型 ， 在 20 世 纪 70 年 代 中 期 ， 
IBM 拥 有 了 关系 数据 库 管理 系统 (RBMS) 的 工作 原型 。RDBMS 极 大 地 促 








进 了 构建 面向 用 户 的 应 用 ， 到 了 20 世 纪 80 年 代 早 期 ， 这 些 应 用 已 经 非常 
普遍 。 

在 1983 年 ，Teradata 出 售 了 第 一 个 关系 数据 库 ， 该 数据 库 是 专门 为 
Wells Fargo 公 司 的 决策 支持 而 设计 。 几 年 后 ， 在 1986 年 ，Ralph Kimball 
成 并 了 Red Brick Systems 公 司 ， 面 向 相同 的 市 场 构建 数据 库 。 以 后 ， 应 
用 开发 商 就 使 用 Teradata 和 Red Brick 系 统 来 开发 解决 方案 ， 但 是 直到 
1991 年 ， 在 数据 仓库 方面 的 首 篇 经 典 论 文才 发 表 。 

Bill Inmon 的 《Building the Data Warehouse》(Wley 出 版 社 ) 一 书 ， 
对 数据 仓库 设计 做 了 连贯 清晰 地 阐述 ， 它 包含 构建 数据 仓库 的 详细 方法 
和 最 佳 实践 。Inmon 提 倡 先 仔细 研究 已 有 的 数据 源 和 商业 目标 ， 再 构建 
企业 数据 模型 。 

在 1995 年 ， 随 着 Inmon 的 书 越 来 越 受 欢迎 ， 数 据 仓库 在 企业 数据 中 心 
内 大 量 繁衍 ， 数 据 仓 库 机 构 TDWI(CThe Data Warehouse Institute) 诞 生 
了 。TDWI 组 织 了 有 关 会 议和 报告 ， 在 前 述 和 传播 数据 仓库 方面 的 知识 
上 ， 其 依然 是 个 核心 力量 。 在 斯 坦 福 大 学 启动 它 的 WHIPS 研 究 机 构 那 
年 ， 数 据 仓库 在 学 术 领 域 开 始 传播 。 

1996 年 ，Ralph Kimball 发 布 了 《The Data Warehouse Toolkit》(Wley 
出 版 社 ) 一 书 ， 对 Inmon 理 论 进行 了 挑战 。Kimball 提 出 了 实现 数据 仓库 
涅 (nrvana) 的 不 同方 式 ， 首 先 气 弃 了 企业 数据 模型 。Kimball 认 为 不 同 的 
企业 单位 应 该 构建 他 们 自己 的 数据 “ 集 市 ?mrts)， 这 些 集 市 可 以 通过 “总 
线 ”(bs) 相 连 。 此 外 ，Kimball 提 倡 使 用 多 维 建 模 ， 而 不 是 使 用 范 化 的 数 


























据 模 型 ， 前 者 的 关系 数据 模型 可 以 通过 少量 人 工 干预 来 适应 很 多 数据 仓 
ESKIL BRE E BS ETE ftare 

随 着 数据 仓库 的 增长 ， 通 利 情 况 下 ， 商 业 分 析 家 想 要 快速 地 操作 少 
量 的 数据 子 集 ， 通 常 这 些 数 据 是 通过 几 个 “维度 ”参数 来 插 述 。 基 于 这 些 
观察 ， 微 软 的 一 组 研究 人 员 ， 包 括 Jim Gray， 在 1997 年 推出 了 CUBE 操 
作 符 。 该 新 的 操作 符 允 许 在 小 的 、 多 维 的 数据 集 上 进行 快速 查询 。 

维度 模型 和 CUBE 操 作 符 都 意味 着 虽 然 关 系 模型 在 构建 面向 用 户 的 应 
用 方面 获得 了 成 功 ， 但 它 可 能 并 不 是 构建 信息 平台 的 最 佳 方案 。 此 外 ， 
文档 (dcument) 和 动作 点 (ation point) 是 Luhn 关 于 商业 智能 系统 提议 的 核 
心 ， 而 不 是 表 。 另 一 方面 ， 整 个 工程 师 团 队 在 构建 关系 数据 处 理 系统 中 
具备 出 色 的 专业 知识 。 

在 分 析 了 一 些 背景 知识 后 ， 我 们 再 一 起 回 到 关于 Facebook 的 探讨 。 








数据 仓库 的 消亡 和 重 起 


在 Facebook， 我 们 不 断 地 向 MySQL 数 据 仓库 加 载 更 多 的 数据 ， 执 行 
更 多 的 查询 。 我 们 只 执行 过 为 动态 网 站 提供 服务 的 数据 库 查 询 ， 对 于 在 
数据 仓库 上 执行 一 条 查询 所 需 运行 的 时 间 之 长 ， 令 我 们 都 很 惊讶 。 在 和 
一 些 经 验 丰 富 的 数据 仓库 专家 讨论 后 ， 我 明白 了 由 于 查询 复杂 性 、 数 据 
量 大 或 者 两 者 兼备 ， 碍 询 执行 几 个 小 时 甚至 几 天 都 是 很 正常 的 。 

有 一 天 ， 我 们 的 数据 库 数据 接近 100 万 光 (1TB)，mysqld 守 护 进程 突 
然 中 断 了 。 在 诊断 了 一 段 时 间 后 ， 我 们 试 着 重启 数据 库 ， 熬 了 一 宿 ， 直 
到 重启 操作 开始 执行 ， 我 们 才 回 家 。 

当 我 次 日 早上 回去 工作 时 ， 数 据 库 还 处 在 恢复 阶段 。 由 于 数据 被 很 
多 客户 端 修改 ， 为 了 获得 一 致 性 视图 ， 数 据 库 服务 器 维护 了 一 张 持 久 性 
列表 ， 该 列表 包含 了 所 有 的 修改 操作 ， 称 为 “ 重 做 日 志 ”(rdo log) 或 者 “ 预 
写 日 志 ”(wite-ahead log)。 如 果 数 据 库 服务 器 被 粗暴 地 终止 和 重启 ， 它 将 
会 从 重 做 日 志 中 读 取 最 近 的 写 操作 日 志 ， 加 快 恢复 速度 。 由 于 我 们 的 数 
据 仓 库 系统 规模 很 大 ，MySQL 数 据 库 恢复 需要 一 定 的 时 间 。 在 那 次 崩 
溃 之 后 ， 我 们 花 了 三 天 时 间 才 重新 拥有 可 以 正常 工作 的 数据 仓库 。 

我 们 那 时 决定 把 数据 仓库 迁移 到 Oracle 上 ，Oracle 数 据 库 软件 对 于 管 
理 大 数据 集 有 更 好 的 支持 。 我 们 还 购买 了 一 些 昂贵 的 高 密度 存储 服务 器 
和 一 个 强大 的 Sun 服 务 器 来 运行 新 的 数据 仓库 。 

在 我 们 把 程序 从 MySQL 迁 移 到 Oracle 的 过 程 中 ， 我 充分 体验 到 所 谓 



































的 标准 关系 数据 库 在 实现 上 还 是 存在 许多 差别 。 每 个 数据 库 的 大 批量 导 
入 和 导出 工具 使 用 完全 不 同 的 机 制 。 此 外 ， 每 个 数据 库 支 持 的 SQL 语句 
很 不 一 样 ， 这 迫使 我 们 不 得 不 重 写 很 多 查询 。 更 糟 的 是 ，Oracle 上 的 
Python 客户 端 库 还 不 正式 且 有 些 bug， 因 此 遇 到 问题 时 ， 我 们 需要 直接 
和 开发 人 员 联 系 。 

经 过 几 周 的 辛苦 努力 ， 我 们 重 写 的 脚本 在 新 的 Oracle 平 台 上 可 以 运行 
了 。 夜 间 执 行 的 程序 运行 正常 ， 我 们 很 兴奋 地 去 党 试 Oracle“ 生 态 系 
统 ” 的 其 他 工具 。 尤 其 是 ，Oracle 有 个 名 为 Oracle 仓 库 构建 器 (Oacle 
Warehouse BuilderOWB) 的 ETL 工 具 ， 我 们 期 望 用 它 蔡 代 自 己 手工 写 的 
Python 肢 本。 但 是 ， 该 软件 不 支持 我 们 需要 的 数据 源 规模 : 在 那 时 ， 通 
过 每 天 晚上 收集 数据 ，Facebook 已 经 有 几 万 个 MySQL 数 据 库 。 虽 然 连 
Oracle 都 无 法 帮助 我 们 解决 在 ETL 方 面 遇 到 的 可 扩展 性 挑战 ， 但 是 我 们 
很 高 兴 拥 有 一 个 能 够 正常 运行 的 包含 几 百 万 兆 (T) 数 据 的 数据 仓库 。 

然后 ， 我 们 打开 点 击 流 日 志 : 仅仅 第 一 天 ， 在 Oracle 数 据 库 上 就 发 送 
了 400GB 的 无 结构 化 数据 。 我 们 再 次 对 使 用 数据 仓库 表示 怀疑 。 











超越 数据 仓库 





根据 互联 网 数据 中 心 (Iternet Data CenterIDC) 显 示 ， 数 字 世 界 在 2011 
年 将 超过 1800exabyte (1lexabyte=216byte)。 这 么 庞大 的 数据 将 无 法 通过 
关系 数据 库 来 管理 。 因 此 ， 对 数据 库 管 理 系统 存在 很 紧迫 的 需求 ， 要 求 
该 系统 能 够 从 无 结构 化 数据 和 结构 化 数据 中 抽取 信息 ， 但 是 人 们 对 如 何 
进展 没有 达成 一 致 。 

特别 是 ， 自 然 语 言 数据 量 丰 富 ， 信 息 量 大 ， 但 是 数据 仓库 管理 不 
善 。 自 然 语 言 和 其 他 无 结构 化 数据 通常 在 文档 库 和 语音 记录 中 获取 ， 为 
了 管理 这 些 数 据 ， 企 业 组 织 开始 超越 了 数据 仓库 供应 商 的 产品 ， 探 索 很 
多 新 的 领域 ， 包 括 企业 搜索 。 

虽然 很 多 搜索 公司 构建 了 很 多 工具 来 收集 很 多 超 链接 文档 即 万 维 网 
(WW)， 一 些 企业 搜索 公司 选择 重点 研究 内 部 文档 集 的 管理 。Autonomy 
公司 成 立 于 1996 年 ， 由 一 些 剑 桥 大 学 的 研究 人 员 组 成 ， 他 们 充分 利用 贝 
叶 斯 推导 算法 (Byesian inference algorithms) 来 帮助 定位 重要 的 文档 。Fast 
Search and Transfer(FAST) 公 司 于 1997 年 在 挪威 成 并， 其 核心 技术 是 更 直 
接 的 关键 字 搜 索 和 排序 。 两 年 后 ，Endeca 公 司 成 立 了 ， 其 核心 是 研究 使 
用 结构 化 的 元 数据 遍历 文档 集 ， 该 技术 即 * 分 面 搜索 ”(fcted search) 技 
术 。G 公 司 看 到 了 其 在 搜索 领域 专长 的 机 遇 ， 在 2000 年 推出 了 企业 搜索 
设施 。 


在 短 短 的 几 年 内 ， 企 业 搜索 已 经 成 长 为 拥有 几 十 亿美 元 的 市 场 ， 该 




















市 场 和 数据 仓库 市 场 几乎 完全 分 离 。Endeca 拥 有 一 些 处 理 更 传统 的 商业 
智能 的 工具 ， 一 些 数 据 库 供应 商 为 系统 引入 了 文本 挖掘 能 力 ， 但 是 对 结 
构 化 的 和 无 结构 化 的 企业 数据 进行 管理 仍然 尚未 实现 一 个 完善 的 、 集 成 
的 解决 方案 。 

企业 搜索 和 数据 仓库 都 是 技术 解决 方案 ， 这 些 方 案 是 为 了 最 大 化 利 
用 企业 的 信息 资源 来 改进 性 能 。 早 在 1944 年 ，MIT 教 授 Kurt Lewin 提 出 
了 “行为 研究 ”(ation research) 的 螺旋 式 框架 ， 其 每 个 螺旋 阶段 是 由 计划 、 
行为 以 及 关于 行为 结果 的 事实 发 现 组 成 的 循环 。 对 该 问题 更 现代 的 方法 
是 Peter Senge 的 “学 习 型 组 织 ”(Larning Organization) 概 念 ， 其 思想 在 他 的 
Æ <The fifth Discipline) (Boadway Business 出 版 ) 中 做 了 详细 阐述 。 这 
两 种 管理 理论 在 很 大 程度 上 都 依赖 于 企业 组 织 根据 先前 收集 到 的 行为 信 
恩 做 出 反思 并 适应 的 能 力 。 从 这 个 角度 来 说 ， 信 息 平 台 是 一 个 学 习 型 组 
织 用 于 摄取 、 处 理 和 生成 实现 螺旋 式 行为 研究 的 必要 信息 的 基础 设施 。 

讨论 完结 构 化 和 无 结构 化 的 数据 管理 ， 让 我 们 一 起 回 到 Facebook 的 
故事 。 
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从 第 一 天 开始 对 Facebook 的 点 击 流 写 日 志 起 ， 到 现在 我 们 已 经 收集 
了 超过 400GB 的 数据 。 对 该 数据 集 的 加 载 、 索 引 和 聚集 操作 对 Oracle 数 
据 库 的 负载 很 重 。 虽 然 做 了 很 多 优化 操作 ， 但 是 我 们 还 是 无 法 在 24 小 时 
内 完成 对 一 天 的 点 击 流 的 聚集 操作 。 很 显然 ， 我 们 需要 把 日 志文 件 聚 集 
到 数据 库 外 ， 只 在 数据 库 中 保存 摘要 信息 (smmary information) 供 后 期 查 
询 。 

幸运 的 是 ， 一 个 来 自 某 大 型 网 站 的 顶尖 工程 师 加 入 了 我 们 团队 ， 他 
有 过 处 理 大 规模 Web 点 击 流 的 经 验 。 仅 仅 几 周 的 时 间 ， 该 工程 师 就 构建 
了 一 个 名 为 Cheetah GEA) 的 并 发 日 志 处 理 系统 ， 该 系统 能 够 在 两 个 
小 时 内 处 理 一 天 的 点 击 流 。 这 实在 太 让 人 振奋 了 。 

但 是 ，Cheetah 存 在 一 些 不 足 : 首先 ， 在 处 理 完 点 击 流 数 据 后 ， 原 始 
数据 还 是 以 归档 方式 保存 (achival storage)， 不 能 够 被 再 次 查询 。 此 外 ， 
Cheetah 是 从 一 个 共享 的 NetApp 归 档 数 据 中 获取 点 击 流 数据 ， 而 NetApp 
归档 数据 的 读 带宽 受 限 。 每 个 日 志文 件 的 “模式 ”(shema) 是 蔡 入 在 处 理 肢 
本 中 ， 而 不 是 保存 为 可 查询 格式 。 我 们 没有 收集 进程 信息 ， 而 是 通过 
Unix 基 础 工具 cron 来 调用 Cheetah 任 务 ， 因 此 无 法 应 用 复杂 的 加 载 共享 逻 
辑 。 最 重要 的 是 ，Cheetah 不 是 开源 的 。 我 们 团队 很 小 ， 资 源 有 限 ， 

法 分 配 更 多 的 资源 来 开发 、 维 护 和 给 新 用 户 培 训 使 用 Cheetah 系 统 。 

Apache 的 Hadoop 项 目 ， 由 Doug Cutting 和 Mike Cafarella 于 2005 年 末 

















启动 ， 是 我 们 取代 Cheetah 的 最 佳 选择 。 以 Doug 的 孩子 的 玩具 大 象 命 
名 ，Hadoop 项 目的 目标 是 实现 遵从 Apache 2.0 许 可 的 G 公 司 的 分 布 式 文 
件 系 统 和 MapReduce 技 术 。 雅 虎 在 2006 年 1 月 聘用 了 Doug Cutting， 并 投 
入 了 大 量 的 工程 资源 来 开发 Hadoop。 在 2006 年 4 月 ， 该 软件 使 用 188 台 服 
务 器 ， 能 够 在 47 小 时 内 ， 对 1.9I 的 数据 进行 排序 。 虽 然 Hadoop 的 设计 在 
很 多 方面 优 于 Cheetah， 但 它 在 那 时 还 太 慢 了 ， 不 能 够 满足 我 们 的 需 
求 。 在 2008 年 4 月 ，Hadoop 用 910 台 服务 器 ， 可 以 在 209 秒 内 对 1T 的 数据 
进行 排序 。 由 于 Hadoop 性 能 的 改进 ， 我 说 服 了 运行 组 团队 利用 60 台 Web 
服务 器 和 3 台 500GB 的 SATA 驱 动 器 ， 开 始 在 Facebook 第 一 次 部 署 Hadoop 
集群 。 

在 最 开始 ， 我 们 通过 流 方式 在 Hadoop 和 Cheetah 中 都 导入 一 部 分 日 
志 。Hadoop 增 强 的 编程 能 力 加 上 其 能 够 查询 历史 数据 ， 从 而 推动 了 一 些 
其 他 有 趣 的 项 目 。 其 中 一 个 应 用 是 对 所 有 Facebook 用 户 交互 的 有 向 对 进 
行 打分 来 确定 这 些 用 户 的 亲密 程度 ;这 个 分 数 可 以 被 用 于 搜索 和 新 闻 订 
阅 的 排序 。 过 了 一 段 时 间 ， 我 们 把 所 有 的 Cheetah 工 作 流 都 迁移 到 
Hadoop 上 ， 废 弃 了 前 者 。 后 来 ， 事 务 数 据 库 收集 程序 也 都 迁移 到 了 
Hadoop。 

有 了 Hadoop,Facebook 的 基础 设施 可 以 支持 对 无 结构 化 和 结构 化 的 数 
据 的 大 规模 分 析 。 随 着 平台 扩展 为 每 天 几 百 TB 的 数据 规模 ， 可 以 执行 
成 千 上 万 个 任务 ， 我 们 发 现 由 于 现在 系统 能 够 存储 和 检索 的 数据 规模 很 
大 ， 我 们 可 以 构建 新 的 应 用 ， 探 索 新 问题 的 答案 。 




















当 Facebook 向 所 有 的 用 户 开放 注册 ， 用 户 数 在 一 些 国 家 增长 迅猛 。 
但 是 在 那 时 ， 我 们 无 法 根据 国家 执行 点 击 流 粒度 分 析 。 自 从 有 了 Hadoop 
集群 ， 我 们 可 以 通过 加 载 所 有 的 历史 访问 日 志 到 Hadoop， 写 一 些 简单 的 
MapReduce 任 务 来 重新 分 析 Facebook 在 一 些 国 家 ， 如 加 拿 大 和 挪威 ， 增 
长 迅猛 的 原因 。 

Facebook 的 用 户 每 天 都 有 几 百 万 的 半 公 开 (smi-public) 的 对 话 。 据 一 
次 内 部 估算 ， 留 言 板 的 数据 量 是 博客 的 10 倍 ! 但 是 ， 这 些 对 话 的 内 容 还 
是 无 法 进行 访问 用 来 数据 分 析 。 在 2007 年 ， 一 个 对 语言 学 和 统计 学 有 强 
烈 兴趣 的 暑期 实习 生 Roddy Lindsay 加 入 了 数据 组 。 通 过 Hadoop,Roddy 
能 够 独立 构建 一 个 强大 的 趋势 分 析 系 统 ， 该 系统 名 为 Lexicon， 每 天 上 晚 
上 能 够 处 理 TB 级 别 的 留言 板 数据 。 可 以 通过 
URL:http: //facebook.com/lexicon £t £j Zi R. 

在 为 Facebook 应 用 构建 信誉 积分 系统 时 ， 我 们 证 明了 把 不 同系 统 的 
数据 存储 到 相同 的 存储 库 中 会 导致 严重 的 问题 。 在 2007 年 5 月 启动 了 
Facebook 平 台 后 不 久 ， 我 们 的 用 户 就 被 “淹没 ”在 添加 应 用 的 请 求 中 。 我 
们 很 快意 识 到 需要 添加 一 个 工具 来 识别 有 用 的 应 用 和 用 户 认为 是 
spam GZW) 的 应 用 。 通 过 收集 API 服 务 器 的 数据 、 用 户 信息 以 及 来 自 
网 站 本 身 的 行为 数据 ， 系 统 能 够 构建 一 个 模型 对 应 用 进行 打分 ， 这 使 得 
系统 可 以 分 发 我 们 认为 对 用 户 最 有 用 的 应 用 邀请 。 

[1] 猎 鹏 和 大 象 在 此 采用 了 借 代 的 修 锌 方法 。 猫 鹏 (ceetah) 指 的 是 
Facebook 的 The Cheetah 日 志 处 理 系统 ， 大 象 (eephanb 指 代 的 是 Hadoop 项 

















目 ， 具 体 参 见 下 文 。 


不 合理 的 数据 有 效 性 





在 最 近 的 文章 中 ，G 公 司 研究 员 发 表 了 三 部 曲 ， 提 炼 出 他 们 在 演 试 
解决 机 器 学 习 中 的 一 些 最 困难 的 挑战 的 心得 。 当 讨论 到 语音 识别 和 机 器 
翻译 ， 他 们 认为 “简单 的 模型 和 大 量 的 数据 总 是 胜 过 在 少量 数据 上 构建 
的 复杂 (eaborate) 模 型 。” 我 不 想 和 他 们 的 发 现 争 论 ， 但 是 ， 当 然 存 在 某 
些 领域 ,更 复杂 的 模型 会 更 成 功 。 但 是 基于 G 公 司 研究 员 的 经 验 ， 确 实 
存在 大 量 问题 ， 更 多 的 数据 和 更 简单 的 模型 对 它们 会 更 有 效 。 

在 Facebook,Hadoop 是 我 们 探索 不 合理 的 数据 有 效 性 的 工具 。 比 如 ， 
当 把 Facebook 网 站 翻译 为 其 他 语言 时 ， 我 们 试 着 征集 那些 母语 为 特定 语 
言 的 用 户 ， 以 便 帮 助 我 们 完成 翻译 任务 。 我 们 的 一 个 数据 科学 家 
Cameron Marlow， 对 所 有 的 Wikipedia 进 行 了 怜 虫 ， 对 每 种 语言 构建 了 
特征 三 元 频率 计数 (caracter trigram frequency counts)。 使 用 这 些 频率 计 
数 ， 他 构建 了 一 个 简单 的 分 类 器 ， 该 分 类 器 可 以 通过 识别 用 户 的 一 组 留 
言 来 确定 他 的 母语 。 使 用 该 分 类 器 ， 我 们 可 以 通过 有 针对 性 方式 ， 积 极 
地 征集 用 户 加 入 我 们 的 翻译 项 目 中 。Facebook 和 G 公 司 在 很 多 应 用 中 都 
用 目 然 语言 数据 ， 详 情 请 参看 本 书 第 14 章 Peter Norvig 对 于 该 读 题 的 探 
讨 。 

G 公 司 的 观点 指出 了 对 现代 商业 智能 系统 的 第 三 条 变革 : 除了 在 一 
个 系统 中 管理 结构 化 和 无 结构 化 的 数据 ， 这 些 商业 智能 系统 必须 能 够 扩 
展 到 可 以 存储 足够 多 的 数据 ， 使 得 可 以 采取 "简单 模型 ， 大 量 数据 ”的 方 

















法 来 实践 机 器 学 习 。 


新 工具 和 应 用 研究 








在 Facebook， 绝 大 部 分 Hadoop 集 群 的 早期 用 户 都 是 淘 望 退 求 新 兴 技 
术 的 工程 师 。 为 了 使 企业 的 更 多 人 可 以 访问 信息 ， 我 们 在 Hadoop 上 构建 
了 一 个 数据 仓库 框架 ， 并 称 为 Hive。Hive 的 查询 语言 类 似 于 SQL， 支 持 
伐 入 MapReduce 逻 辑 、 表 分 区 、 抽 样 和 处 理 任 意 序列 化 数据 的 能 力 。 最 
后 一 个 特征 至 关 重 要 ， 因 为 收集 到 Hadoop 的 数据 在 结构 上 不 断 变化 ， 允 
许 用 户 指定 自己 的 序列 化 模式 ， 可 以 使 我 们 把 为 数据 指定 结构 问题 转 为 
把 数据 加 载 到 Hive。 此 外 ， 我 们 还 实现 了 一 个 简单 的 用 户 界面 (uer 
interface,UDD) 来 构建 Hive 人 查询 ， 名 为 Hipal。 使 用 这 些 新 的 工具 ， 市 场 、 
产品 管理 、 销 售 和 客户 服务 的 非 工 程 师 都 能 够 在 几 TB 的 数据 上 自己 执 
行 查询 。 经 过 几 个 月 的 内 部 使 用 后 ， 在 Apache 2.0 许 可 下 ，Hive 成 为 
Hadoop 的 官方 子 系统 ， 现 在 仍然 在 积极 地 开发 中 。 

除了 Hive， 我 们 构建 了 分 享 图 表 和 图 形 的 门户 Argus 〈 受 IBM 的 Many 
Eyes 项 目 启发 )》 、 工 作 流 管理 系统 Databee、 用 Python 写 MapReduce 脚 本 
的 框架 PyHive、 为 终端 用 户 提 供 结构 化 数据 服务 的 存储 系统 
Cassandra〈 现 在 作为 开源 ， 在 Apache 孵 化 器 中 ) 。 

随 着 这 些 新 系统 的 稳定 ， 我 们 最 终 构建 了 由 单一 Hadoop 集 群 管理 的 
多 层 模式 (mliple tiers) 的 数据 。 企 业 中 的 所 有 数据 ， 包 括 应 用 日 志 、 事 务 
数据 库 和 Web 怜 虫 ， 都 以 原始 数据 格式 ， 定 期 收集 到 Hadoop 分 布 式 文件 
系统 中 (HFS)。 夜 间 执 行 的 几 万 个 Databee 进 程 将 把 一 部 分 数据 转化 为 结 





构 化 格式 ， 把 它 放 入 由 Hive 管 理 的 HDFS 文 件 目录 中 。 在 Hive 中 执行 下 

一 步 聚 集 操作 ， 用 来 生成 Argus 服 务 报表 。 此 外 ， 在 HDFS 内 ， 在 自己 的 
home 目 录 下 维护 “ 沙 盒 "(sndboxes) 的 工程 师 可 以 运行 原型 (pototype) 任 
务 。 

目前 ，Hadoop 包 含 了 将 近 25 亿 兆 (2.5PB) 的 数据 ， 而 且 以 每 天 15TB 
的 数量 级 增加 。 每 天 都 有 3000 个 以 上 的 MapReduce 任 务 在 运行 ， 处 理 
55TB 的 数据 。 为 了 适应 这 些 运行 在 集群 上 的 任务 的 不 同 优先 级 ， 我 们 
构建 了 作业 调度 器 ， 实 现在 多 个 队列 上 的 资源 共享 。 除 了 文 持 内 部 和 外 
部 的 报表 、a/b 测 试管 道 和 很 多 不 同 的 数据 密集 型 产品 和 服务 ，Facebook 
的 Hadoop 集 群 可 以 实现 一 些 有 趣 的 应 用 研究 项 目 。 

由 数据 科学 家 Itamar Rosenn 和 Cameron Marlow 主 持 的 一 个 纵向 研究 
项 目 (ngitudinal study) 用 于 预测 长 期 的 用 户 参 与 的 最 重要 的 因素 是 什 
么 。 我 们 使 用 信息 平台 来 选择 一 些 用 户 的 样本 ， 删 除 游离 点 ， 并 对 参与 
度 的 不 同 尺度 使 用 一 些 最 小 角度 回归 技术 (last-angle regression) 来 生成 大 
量 的 特性 。 有 些 特性 能 够 通过 Hadoop 生 成 ， 包 含 计 算 好 友 网 络 密度 的 各 
种 尺度 和 基于 信息 特性 的 用 户 范围 。 

另 一 个 探索 激励 新 用 户 贡献 内 容 的 动机 的 内 部 研究 ， 在 2009 年 CHI 
会 议 的 论文 “Feed Me:Motivating Newcomer Contribution in Social 
Network Sites” 中 描述 。Facebook 数 据 组 的 一 个 更 新 的 研究 是 查看 信息 流 
是 如 何在 Facebook 的 社会 图 中 流动 ， 该 研究 的 标题 
为 “Gesundheit!Modeling Contagion through Facebook News Feed”， 已 被 




















2009 ICWSM 会 议 接收 。 

在 Facebook， 每 天 收集 证 据 、 测 试 假设 、 构 建 应 用 和 使 用 共享 的 信 
息 平 台 生 成 新 的 洞察 。 而 在 Facebook 之 外 ， 其 他 公司 也 同时 构建 了 类 似 
的 系统 。 
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2009 年 VLDB 会 议 的 “MAD Skills: New Analysis Practices for Big 
Data” 一 文 详细 描述 了 Fox Interactive Media(FIM) 公 司 的 分 析 环 境 。 结 合 
Hadoop 利 Greenplum 数 据 库 系统 ， 该 团队 在 FIM 中 构建 了 我 们 很 熟悉 的 
数据 处 理 平台 ， 但 其 工作 和 我 们 在 Facebook 的 工作 是 独立 的 。 

该 文章 的 标题 谈 及 了 FIM 平 台 的 三 个 方面 : 磁性 (Mgnetic)、 灵 活 
(Aile) 和 有 深度 (Dep)。“ 磁 性 ?表示 存储 该 企业 的 所 有 数据 ， 而 不 仅仅 是 
适合 企业 数据 模型 的 结构 化 数据 。 同 样 的 思路 ， 一 个 “灵活 ”的 平台 需要 
能 够 优雅 地 处 理 模式 变化 ， 使 得 分 析 员 能 够 直接 在 数据 上 工作 ， 或 者 根 
据 需 求 对 数据 模型 不 断 演化 。“ 有 深度 ”表示 在 数据 上 执行 更 复杂 的 统计 
分 析 实 践 。 

在 FIM 环 境 中 ， 在 单 Greenplum 数 据 库 内 ， 数 据 分 为 呈现 (saging)、 生 
产 、 报 表 和 沙 箱 四 种 模式 ， 和 之 前 描述 的 在 Facebook 中 Hadoop 内 的 多 层 
模式 很 相似 。 

微软 单独 发 表 了 其 数据 管理 栈 (dta management stack) 的 细节 。 在 标题 

















为 “Dryad:Distributed Sata-Parallel Programs from Sequential Building 
Blocks” #l“SCOPE:Easy and Efficient Parallel Processing of Massive Data 
Sets” 两 篇 文章 中 ， 微 软 描述 了 和 我 们 在 Facebook 构 建 的 极为 相似 的 信息 
平台 。 它 的 基础 设施 包含 分 布 式 文件 系统 Cosmos 和 并 行 数 据 处 理 系统 
Dryad， 它 还 发 明了 类 似 SQL 的 查询 语言 SCOPE。 


三 个 团队 在 完全 独立 的 技术 团队 工作 ， 却 开发 演化 了 处 理 大 规模 数 
据 的 相似 平台 。 这 是 怎么 回 事 呢 ? 通过 把 特定 结构 的 需求 与 存储 数据 的 
能 力 以 及 为 数据 检索 创造 API 进 行 分 离 ， 大 规模 网 站 的 存储 系统 看 起 来 
更 像 数据 空间 (dtaspace) 而 不 是 数据 库 。 

















作为 数据 空间 的 信息 平台 


在 雅虎 、Quantcast 和 Last,fm 人 公司， 也 有 类 似 的 几 十 亿 兆 规模 (ptabyte- 
scale) 的 数据 平台 。 这 些 平台 不 完全 是 数据 仓库 ， 因 为 它们 通常 不 使 用 
关系 数据 库 或 者 任何 数据 仓库 建 模 技 术 。 它 们 也 并 不 完全 是 企业 搜索 系 
统 ， 因 为 只 对 一 部 分 的 数据 构建 索引 ， 而 且 它 们 对 外 开放 了 更 丰富 的 
API。 除 了 传统 的 数据 分 析 工 作 ， 它 们 通常 用 于 构建 产品 和 服务 。 

与 大 脑 和 图 书馆 类 似 ， 这 些 共 享 的 数据 处 理 平台 为 公司 摄取 、 处 理 
和 生成 信息 提供 了 场所 ， 和 亚运 的 话 ， 它 们 还 可 以 加 速 企业 从 经 验 数 据 中 
学 习 的 步伐 。 

在 数据 库 社 区 ， 研 究 议程 已 经 开始 从 纯 关 系数 据 管 理 过 渡 到 在 大 数 
据 集 上 存储 和 查询 的 更 经 典 的 系统 ， 称 为 “数据 空间 ”。 在 论文 “From 


Databases to Dataspaces:A New Abstraction for Information 





Management”(htp: //www.eecs.berkeley.edu/~ 
franklin/Papers/dataspaceSR.pdf) 中 ， 作 者 强调 了 存储 系统 必须 支持 所 有 
数据 格式 ， 并 提供 一 些 API 供 数据 访问 ， 这 些 API 是 基于 存储 系统 对 数 
据 的 理解 不 断 演化 的 。 

我 们 之 前 描述 的 信息 平台 是 数据 空间 的 真实 例子 : 用 单一 存储 系统 
管理 企业 中 各 个 部 分 的 所 有 的 结构 化 和 无 结构 化 的 几 十 亿 兆 的 数据 ， 该 
系统 需要 给 工程 师 、 分 析 员 和 报告 员 提 供 各 种 数据 访问 API。 由 于 在 工 
业 上 这 些 系统 大 量 存在 ， 我 期 待 数据 库 社区 继续 探索 数据 空间 的 理论 基 








础 和 实践 意义 。 

言 息 平台 是 构建 学 习 型 组 织 的 基础 设施 的 关键 部 分 。 人 们 在 加 速 学 
习 和 利用 信息 平台 过 程 中 ， 开 始 扮演 了 数据 科学 家 (te Data Scientist) 的 
角色 。 


数据 科学 家 


在 最 近 的 访谈 中 ，G 公 司 首席 经 济 学 家 Hal Varian 强 调 了 员工 需要 能 
够 从 之 前 描述 的 信息 平台 中 抽取 信息 。 正 如 Varian 所 言 : “找到 能 够 为 一 
些 变 得 普遍 且 廉 价 的 东西 提供 稀缺 、 互 补 的 服务 。 那 么 ， 是 什么 变 得 普 
遍 且 廉价 ? 数据 。 是 什么 与 数据 相辅相成 ? 分析。” 

在 Facebook， 我 们 发 现 传统 的 头衔 如 商业 分 析 师 、 统 计 学 家 、 工 程 
师 和 研究 科学 家 都 不 能 确切 地 定义 我 们 团队 的 角色 。 该 角色 的 工作 是 变 
化 多 样 的 : 在 任意 给 定 的 一 天 ， 团 队 的 一 个 成 员 可 以 用 Python 实现 一 个 
多 阶段 的 处 理 管 道 流 、 设 计 假设 检验 、 用 工具 R 在 数据 样本 上 执行 回归 
测试 、 在 Hadoop 上 为 数据 密集 型 产品 或 服务 设计 和 实现 算法 ， 或 者 把 我 
们 分 析 的 结果 以 清晰 简洁 的 方式 展示 给 企业 的 其 他 成 员 。 为 了 掌握 完成 
这 多 方面 任务 需要 的 技术 ， 我 们 创造 了 “数据 科学 家 ”这 种 角色 。 

在 金融 服务 领域 已 经 构建 了 历史 市 场 行为 的 大 数据 存储 作为 该 领域 
的 数据 科学 家 ， 即 数据 分 析 专 家 (Qants)， 来 开发 新 模型 的 实验 场 。 在 工 
业 以 外 ， 我 发 现在 很 多 科学 领域 ， 研 究 生 扮演 着 数据 科学 家 的 角色 。 
Facebook 数 据 组 团队 的 其 中 一 员 曾 在 生物 信息 实验 室 工作 过 ， 在 那里 他 
构建 过 数据 管道 流 ， 并 做 类 似 的 离线 数据 分 析 。 在 CERN， 著 名 的 Large 
Hadron Collider 生 成 大 量 的 数据 ， 这 些 数据 是 由 一 群 妃 求 突破 的 研究 生 
精心 收集 和 钻研 的 。 

最 近 新 出 的 书 如 Davenport 和 Harris 合 著 的 《Competing on Analytics) 














(哈佛 商学 院 出 版 社 ，2007) , Bakerf) (The Numerati)) (Hughton 
Mifflin Harcourt, 2008) 以 及 Ayres 的 《Super Crunchers) (Bntam, 
2008) 都 强调 了 在 跨 工 业 中 数据 科学 家 的 重要 性 ， 他 们 在 促进 企业 基于 
收集 到 的 信息 做 出 改进 发 挥 了 至 关 重 要 的 作用 。 和 研究 社区 在 数据 空间 
的 调研 一 起 ， 数 据 科学 家 在 今后 几 年 需要 进一步 的 定义 。 通 过 更 好 的 阐 
明 数 据 科 学 家 角色 ， 我 们 可 以 建设 培训 课程 、 制 定 广告 层次 、 组 织 会 
议 、 写 书 以 及 为 任何 被 认可 的 行业 做 补充 。 在 这 个 过 程 中 ， 可 行 的 数据 
科学 家 组 织 将 会 不 断 扩 展 ， 用 来 满足 飞速 增殖 的 数据 平台 上 不 断 增 长 的 
专业 “领航 员 ” 需 求 ， 进 一 步 加 速 跨 企业 的 学 习 过 程 。 











结论 


当面 对 在 Facebook 构 建 一 个 信息 平台 的 挑战 时 ， 我 发 现 观察 别人 是 
如 何 路 越 时 间 和 问题 领域 来 解决 相同 的 问题 是 很 有 帮助 的 。 作 为 工程 
师 ， 我 最 初 的 做 法 是 通过 已 有 可 得 的 技术 作为 指导 ， 这 在 现在 看 来 显得 
有 点 目光 短 浅 。 最 大 的 挑 成 是 一 直 致 力 于 研究 构建 < 学 习 型 组 织 ” 的 基础 
平台 和 人 员 构 成 (hman component) 这 个 大 的 问题 ， 而 不 是 茶 些 特定 的 技 
术 系 统 ， 如 数据 仓库 或 企业 搜索 系统 。 

我 确信 构建 信息 平台 采用 的 硬件 和 软件 将 会 迅速 演化 ， 并 且 数 据 科 
学 家 需要 掌握 的 技术 也 将 以 同样 的 速度 变化 。 保 持 致力 于 加 速 学 习 过 程 
的 目标 对 于 企业 组 织 和 科学 都 有 帮助 。 未 来 属于 数据 科学 家 | 














"ho: ” 照 厂 档案 的 地 理 之 美 


Jason Dykes 和 JoWood 

照片 可 以 是 美丽 的 。 把 能 够 捕捉 精彩 瞬间 、 点 燃 激情 并 能 激发 崇高 
的 东西 仅仅 看 做 是 数据 ， 这 是 对 照片 的 一 种 贬低 。 然 而 一 旦 以 数字 形式 
存储 ， 处 理 相 片 的 二 进 制 数据 可 以 与 处 理 任何 其 他 的 数值 型 数据 流 一 
样 。 但 是 我 们 可 以 对 这 些 照片 做 进一步 处 理 : 收集 在 一 起 、 排 列 整理 、 
添加 描述 标注 ， 由 此 我 们 可 以 创建 出 一 个 场景 ， 并 且 一 个 新 的 美好 的 东 
西 也 由 此 而 生 。 这 种 美 虽 源 于 组 成 它 的 所 有 照片 ， 但 却 又 远 远 超 过 了 每 
张 照片 的 所 有 美丽 汇总 。 

在 本 章 中 ， 我 们 将 探索 以 地 理 的 视角 审视 一 组 照片 时 ， 所 能 发 现 的 
美 。 我 们 将 通过 地 图 和 其 他 图 形 来 对 地 理 特性 进行 可 视 化 检查 。 这 里 
的 “地 理 ” 指 的 是 允许 我 们 把 一 些 东 西 同 某 个 地 方 (pace) 或 位 置 (cation) 
《这 是 两 个 截然 不 同 的 概念 ) 关联 在 一 起 的 信息 。 当 我 们 处 理 数 据 时 ， 
有 很 多 相关 的 地 理 信息 。 有 些 人 估计 大 约 有 80% 的 数据 是 地 理 数据 
(McEachren 和 Kraak 2001) 。 地 理 信 息 可 能 是 直接 以 经 纬度 坐标 的 形式 
进行 记录 ， 或 者 是 这 个 地 方 的 邮政 编码 、 名 称 或 一 些 其 他 的 信息 。 这 种 
地 理 数 据 将 是 组 织 、 过 滤 和 解释 数据 的 有 用 的 方式 。 记 录 不 断 增 长 的 、 
巨大 的 数据 集中 的 地 理 信息 ， 可 能 会 为 关于 某 个 地 方 的 观点 分 析 提 供 格 
外 有 用 的 信息 资源 。 

可 以 通过 很 多 途径 把 地 理 信息 和 数据 进行 关联 。 这 个 途径 可 能 是 数 














据 收 集 过 程 的 组 成 部 分 〈 例 如 ， 卫 星 遥 感 ) ; 也 可 能 产生 于 查询 和 解释 
数据 的 过 程 中 《〈 例 如， 以 G 公 司 本 地 搜索 为 代表 的 一 些 地 理 位 置 相关 的 
服务 ) ; 能 产生 于 更 先进 复杂 的 时 空 分 析 过 程 中 ， 它 是 “直觉 构 

建 ”"(Snsemaking) 过 程 的 一 部 分 ， 且 当前 的 地 理 可 视 化 分 析 正 是 其 典型 代 
表 (Adrienko 等 2008) 。 在 这 里 ， 我 们 采用 在 收集 过 程 中 已 经 通过 特定 的 
定位 方式 取得 了 其 地 理 信 息 的 数据 作为 起 始点 数据 ， 但 这 些 起 始点 数据 
也 包含 了 一 些 额外 的 、 地 点 不 明晰 的 描述 。 地 理 档案 包含 了 超过 100 万 
的 带 有 精确 的 经 纬度 的 照片 。 这 些 照 片 的 经 纬度 有 的 是 通过 带 GPS 功 能 
的 设备 如 iPhone 获得 的 ， 有 的 则 是 由 一 些 人 为 的 方式 在 地 图 上 手工 定位 
了 他 们 的 照片 。 此 外 ， 这 些 照片 的 地 理 信息 也 有 可 能 是 它们 的 拥有 者 以 
非 格式 化 的 文本 形式 提供 描述 ， 或 者 可 能 是 以 邻近 地 区 的 名 字 给 照片 命 
名 ， 或 者 是 对 照片 捕捉 到 的 特征 或 者 活动 进行 描述 。 这 其 中 有 一 定 的 复 
杂 性 和 精妙 性 ， 而 且 我 们 应 该 明白 ， 当 我 们 试图 通过 可 视 化 方式 来 加 强 
对 位 置 和 地 点 描述 之 间 相 互 作用 的 知识 时 ， 美 丽 将 “ 油 然而 生 ”。 

当 我 们 编写 优美 的 代码 时 ， 通 常情 况 下 都 有 很 具体 的 目的 ， 比 如 对 
列表 进行 排序 ， 求 解 线性 方程 组 ， 或 者 完成 傅 里 时 变换 。 代 码 之 美 源 于 
达成 目的 (Klawa 2007) 。 当 处 理 美丽 的 数据 时 ， 我 们 的 目标 往往 不 是 非 
常 明确 。 分 析 数 据 是 科学 探索 的 一 个 重要 环节 ， 而 且 可 以 带 给 人 们 更 深 
的 洞察 力 ， 并 且 测 试 假设 情况 和 验证 先前 的 理论 。 美 丽 的 数据 值得 探 
索 。 它 包含 的 模式 、 结 构 和 异常 情况 虽然 不 能 立即 显现 出 来 ， 但 是 在 进 
行 更 深 的 深度 挖掘 时 ， 它 就 显现 出 来 。 我 们 在 工作 中 通过 可 视 化 方式 探 





























索 数 据 过 程 中 ， 形 成 了 两 个 长 期 的 传统 。 为 了 进行 信息 通信 以 及 文 持 知 
识 发 现 ， 制 图 学 已 经 发 展 了 强大 的 技术 来 通过 可 视 化 方式 表示 地 理 数 

据 。 几 个 世纪 以 来 ， 它 已 经 成 功 地 将 开拓 创新 、 科 学 活力 和 更 多 主观 的 
设计 和 批判 技巧 相 结合 。 地 图 本 喘 可 以 与 它们 所 描述 的 对 象 同样 美丽 。 

言 恩 可 视 化 涵盖 了 数据 的 可 视 化 探索 过 程 ， 该 过 程 可 能 与 地 理 信息 腕 不 
相关 ， 而 只 是 通过 设计 和 图 形 、 图 表 以 及 相关 的 交互 行为 。 在 本 间 中 ， 
我 们 将 报告 一 些 融 合 了 制图 学 和 信息 可 视 化 的 基础 原理 的 探索 地 理 数据 
之 美的 方法 。 








数据 之 美 : GeographJi H 


我 们 认为 Geograph 项 目 趾 是 优美 的 数据 集合 ， 这 里 有 很 多 方面 的 原 
因 。 描 述 不 列 颠 群岛 (Bitish Isles) 的 地 理 的 地 理 对 象 和 标注 照片 的 档案 正 
在 快速 增长 ， 它 是 有 价值 的 数据 源 、 在 线 社区 、 游 戏 和 乡村 探索 驱动 的 
完美 结合 ， 无 论 是 宏观 美 还 是 细节 美 ， 都 可 以 让 人 产生 无 限 遐 想 。 

Geograph 项 目 最 初 由 Gary Rogers 提 出 ， 后 来 由 Paul Dixon、Barry 
Hunter 和 和 不断 发 展 壮 大 的 各 个 版 面 的 版 主 团 队 提 供 支 持 ， 它 则 在 收集 英 
国 和 爱尔兰 的 每 一 平方 公里 上 的 “具有 代表 性 的 图 片 和 信息 ”*(Gograph 
2009) 。 到 本 文 写 作为 止 ， 该 项 目 己 经 有 超过 8500 个 贡献 者 ， 共 收集 记 
录 了 120 多 万 张 图 片 ， 涵 盖 了 英国 244000 平 方 公 里 国土 面积 的 90% 以 
上 。 图 6-1 给 出 了 一 个 例子 。 该 数字 无 疑 会 随 着 时 间 不 断 增 长 一 一 当 你 
正 阅 读本 章 时 ， 英 国 的 乡村 正在 “地 理化 ”。 


























图 6-1: Aberuchill 附 近 的 小 路 。 远 处 是 Bioran Dalchonzie。 这 是 
Geograph 项 目的 网 站 出 现 的 第 100 万 张 图 片 
(htp: //www.geograph.org.uk/photo/1006884) 。 图 片 版 权 归 Dr.Richard 
Murray 所 有 ， 由 Creative Commons 
License(http: //creativecommons.org/licenses/by-sa/2.0/) 授权 使 用 (JL 
彩 图 12) 

Geograph 项 目的 参与 贡献 者 可 以 目 由 地 选择 他 们 的 典型 风景 ， 但 是 
地 理 特征 应 该 能 够 表达 1km 的 网 格 范 围 内 的 典型 的 人 文 和 物质 地 理 特 
征 : 

想象 一 下 ， 在 地 理 读 上 ， 一 个 小 孩 硕 望 弄 清楚 一 个 特定 的 网 格 范围 
内 的 人 文 和 物质 地 理 特征 实际 上 看 起 来 是 什么 样子 ， 当 他 看 着 地 图 时 ， 
他 可 能 会 找到 对 他 有 帮助 的 东西 (Hwgood 等 2007) 。 











地 理 的 很 多 方面 蕴含 

创造 一 个 有 目的 地 选择 并 标注 的 开放 图 像 库 的 目标 是 简单 性 ( 想 
法 ) 、 复 杂 性 (处 : 理 ， 其 过 程 也 是 包含 着 几 丝 美丽 ) 、 实 用 性 〈 资 
VO 的 “动人 ”组 合 。 为 了 维护 该 集合 并 使 得 它 可 用 ， 推 动 该 项 目 所 付出 
的 组 织 工作 和 努力 是 令 人 钦佩 和 印象 深刻 的 。 

通过 “ 自 下 而 上 ”(bttom-up)、“ 和 集体 力量 ”(dllective effort) 的 方式 生成 
档案 ， 以 及 使 用 技术 和 个 人 力量 来 实现 这 些 目标 ， 这 些 方式 中 无 不 蕴涵 
着 美丽 。 在 协作 式 的 “以 人 作为 传感器 采集 信息 ”(ctizens as sensors) 
(Godchild 2007) ， 该 项 目 本 质 上 的 集体 之 美 ， 是 基于 不 考虑 个 人 利益 
的 共同 理解 和 广泛 合作 ， 这 一 点 值得 一 提 。 

通过 引人入胜 、 易 于 理解 和 激动 人 心 的 web 站 点 来 实现 和 展现 该 想 
法 ， 该 网 站 还 提供 了 很 多 种 方式 来 访问 信息 ， 这 些 也 体现 了 项 目 在 艺术 
和 技术 上 的 品质 。 

根据 地 理 信息 生成 的 不 同 尺度 的 地 图 ， 提 供 了 生成 该 档案 集合 的 各 
种 过 程 的 洞察 : 力 ， 这 些 也 蕴涵 着 艺术 品质 ( 见 图 6-2) 。 这 些 包含 很 多 
富 于 创造 性 的 制图 表示 和 提供 访问 档案 集合 的 大 量 信息 和 更 新 的 交互 特 
征 ， 比 如 参与 贡献 者 以 及 其 贡献 的 照片 的 地 理 密度 和 分 布地 图 。 

个 人 贡献 的 照片 作为 人 文 和 物质 景观 的 表示 ， 是 由 那些 居住 和 游览 
图 片 所 描述 的 地 : 方 的 人 们 所 决定 的 ， 这 些 照片 具有 艺术 魅力 。 
Geograph 项 目 社区 将 这 种 魅力 “正式 化 ”， 因 为 “地 理 年 度 ”(te geograph of 
the year,GOTY) 的 候选 图 片 是 通过 每 周 从 贡献 的 图 片 中 选 出 来 的 。 

















E] 6-2: Norfolk 海 岸 的 地 理 马 赛 克 图 。 每 个 图 片 都 是 根据 其 地 理 位 
置 进 行 映射 ， 表 示 了 1 平方 公里 的 景观 。 图 片 由 Creative Commons 
License(http: //creativecommons.org/licenses/by-sa/2.0) 授权 使 用 (IL 
图 13) 

Geograph 项 目 在 某 种 程度 上 是 典型 的 广泛 的 用 户 生成 的 描述 地 理 的 
数据 集合 ， 这 些 数据 正 变 得 可 以 访问 ， 而 这 种 种 特征 使 得 Geograph 项 目 
格外 显著 。 存 在 很 多 真正 的 机 遇 来 探索 Geograph 项 目的 数据 ， 并 通过 这 
些 数 据 孕育 新 的 知识 ， 这 些 知识 可 能 会 进一步 加 强 Geograph 数 据 之 美 。 
我 们 在 本 章 的 后 面部 分 将 举 出 一 些 例子 ， 用 来 描述 在 档案 里 集中 展现 一 
些 地 理 视 觉 探 索 。 








[1 关于 该 项 目的 更 多 信息 ， 可 参考 其 Web 站 点 : 


http: //www.geograph.org.uk/ o 


可 视 化 、 关 丽 和 树 形 图 





在 我 们 深入 探索 Geograph 项 目 档案 本 号 之 前 ， 一 些 有 助 于 探索 档案 
集 的 动机 和 可 视 化 技术 是 值得 考虑 的 。 传 统制 图 绝 大 多 数 集中 于 可 以 通 
过 传统 媒体 进行 再 制造 的 静态 产品 ， 这 一 点 是 可 以 理解 的 。 在 过 去 15 年 
中 ， 我 们 的 绝 大 多 数 工作 是 交互 式 的 一 一 吸引 数字 技术 来 重新 考虑 地 图 
的 本 质 和 有 角色， 并 且 把 它们 作为 可 啊 应 的 图 像 方式 ， 目 的 是 为 探索 而 查 
询 (Fsher 1998) 。 我 们 的 目标 是 保证 在 交互 平滑 性 过 程 中 的 艺术 品质 ， 
以 及 通过 开发 言 信 息 的 景象 和 激 太 思考 和 探索 的 动态 行为 所 获得 的 满 
足 。 然 而 ， 我 们 最 近 的 一 些 工 作 已 经 重新 重视 数据 密度 ， 重 新 集中 于 最 
根本 的 制图 设计 决策 ， 这 些 决策 和 那些 高 效 利用 空间 生成 布局 和 符号 学 
(数据 编码 ) 相关 。 制 图 工作 的 一 部 分 是 由 人 硬件 进 步 所 驱动 ， 这 些 进步 
使 得 处 理 和 显示 大 的 数据 密集 型 图 片 变 得 更 可 行 。 实 际 上 ， 该 工作 啊 应 
了 以 新 的 有 效 、 优 雅 的 方式 来 图 形 化 表示 各 种 更 大 的 数据 集合 的 需求 ; 
由 于 我 们 章 从 了 Tufte 的 建议 “在 小 空间 展现 很 多 数字 ?”(Tfte 1983) ， 因 
而 这 些 数据 变 得 更 易于 访问 。 

可 视 化 数据 探索 之 美 在 哪里 





























的 感性 体验 。 在 可 视 化 过 程 中 ， 通 各 都 是 开发 者 或 设计 者 觉得 美丽 。 为 
了 更 全 面 地 审视 艺术 (如 Kosara 2007) ， 适 当地 号 召 项 目 社 区 正式 地 对 
可 视 化 作品 提出 批评 意见 。 但 是 ， 在 一 个 可 用 的 知识 体系 开发 出 来 之 








前 ， 我 们 在 开发 优雅 的 图 形 上 还 是 依赖 于 广泛 的 原则 和 经 验 法 则 。 以 上 
这 些 很 多 方面 都 已 经 应 用 于 《Beautiful Code》(Oam 和 Wilson 2007) , 
而 且 有 助 于 数据 可 视 化 应 用 。 例 如 ，Brian Kernighan(Kernighan 2007) 
出 优雅 的 代码 的 特征 ， 包 括 紧 竣 、 优 雅 、 高 效 和 实用 ， 而 且 通 过 “ 理 
想 情 况 下 ， 代 码 可 以 在 单个 页 面 显示 ”来 非 正式 地 量化 紧凑 性 。Yukihiro 
Matsumoto 认 为 让 人 难以 理解 的 代码 是 不 优雅 的 ， 而 且 应 用 该 标准 来 开 
发 Ruby 编 程 语言 (Mtsumoto 2007) 。 但 是 “难以 理解 >? 和 复杂 是 不 同 的 ， 
不 该 混淆 在 一 起 。 根 据 我 们 的 评判 标准 ， 一 个 易于 理解 的 简单 图 形 但 表 
示 的 数据 信息 量 非 常 少 谈 不 上 优雅 。 相 反 地 ， 美 丽 的 数据 可 视 化 是 通过 
易于 理解 的 方式 来 表示 复杂 的 东西 一 一 可 能 通过 重点 研究 该 数据 的 某 几 
个 方面 或 者 突出 某 些 特殊 方面 。 这 可 能 和 Kernighan 的 原则 一 致 : 努力 
达到 在 单个 “页 面 * 上 完成 (数据 可 视 化 〉 的 目标 。 我 们 的 情况 是 通过 以 
下 几 个 方面 来 达到 这 个 目标 : 努力 扩展 和 综合 已 有 的 制图 和 信息 可 视 化 
方法 ， 从 而 高 效 地 利用 空间 显示 多 个 图 片 〈 在 空间 和 其 他 方面 的 ) X 
fu 力求 通过 足够 紧凑 的 方式 ， 使 得 在 一 个 页 面 或 者 屏幕 可 以 完全 显 
示 ， 而 且 可 以 很 优雅 地 同时 展示 全 局 结构 (Gstalt) 和 局 部 细节 (即时 需求 
的 细节 ) ; 基于 任何 特定 的 数据 集 上 的 需求 ， 努 力 设 计 和 开发 易于 理解 
和 有 用 的 图 形 ， 使 得 真正 的 用 户 能 够 理解 和 使 用 图 形 来 解决 已 知 的 信息 
需求 。 

Tufte (1983) 提出 了 “数据 /墨水 ”比率 的 想法 一 一 这 是 一 个 启发 式 算 
法 ， 鼓 励 平面 设计 师 评 估 一 个 直接 用 于 表示 数据 的 页 面 的 墨水 比例 。 该 









































比例 越 高 ， 使 用 图 形 符号 化 就 越 高 效 ， 而 且 其 表示 的 信息 就 越 有 深度 。 
这 种 形式 和 功能 指标 可 能 有 助 于 数据 图 像 之 美 。 相 似 地 ， 我 们 可 以 考虑 
数据 /地 理 位 置 比率 ， 即 一 个 图 形 元 素 在 一 个 页 面 的 位 置 程度 反映 了 它 
所 表示 的 数据 的 特征 。 传 统 的 地 形 图 在 这 方面 表现 很 好 ， 因 为 一 个 符号 
在 页 面 上 的 位 置 通常 可 以 确定 其 所 代表 的 地 理 位 置 。 在 这 方面 ， 很 多 信 
恩 图 形 可 能 不 是 很 高 效 ， 如 一 些 地 图 (比如 统计 地 图 和 电路 图 )〉 。 我 们 
认为 空间 的 有 效 利 用 是 优雅 的 数据 可 视 化 的 重要 方面 ， 因 为 它 支 持 地 理 
(或 者 其 他 ) 模式 的 可 视 化 发 现 过 程 。 在 包含 地 理 特征 的 大 量 的 数据 集 
情况 下 ， 比 如 大 量 的 志愿 者 贡献 的 数据 集合 ， 空 间 的 有 效 利 用 就 变 得 更 
加 切实 重要 。 简 而 言 之 ， 在 高 效 使 用 和 展现 空间 上 列 池 着 美 一 一 尤其 是 
为 了 展现 地 理 。 
使 树 形 图 变 美 : 从 地 理 角 度 出 发 
树 形 图 是 层次 的 填充 空间 式 (sace-filling) 展 现 方式 (Sneiderman 

1992) ， 如 图 6-3 所 示 。 正 如 很 多 美丽 的 想法 一 样 ， 树 形 图 基于 一 个 优 
雅 简单 的 思想 。 把 一 个 数据 项 表示 成 一 个 矩形 。 如 果 该 数据 项 本 身 包 含 
一 些 其 他 数据 项 〈 任 意 层次 的 特征 定义 ) 的 集合 ， 这 些 数据 项 的 每 个 都 
是 通过 一 个 更 小 的 矩形 来 表示 ， 这 些小 矩形 落 在 “ 父 ” 矩 形 的 内 部 。 反 过 
来 说 ， 这 些小 矩形 本 身 也 可 以 包含 更 小 的 “ 子 ” 拢 形 等 。 这 些 矩 形 在 排列 
上 可 以 填充 整个 图 形 空 间 ， 而 没有 任何 缝隙 。 每 个 矩形 或 节点 可 以 根据 
其 所 表示 的 数据 的 一 些 特征 来 调整 大 小 ; 还 可 以 根据 数据 对 它 进 行 着 色 
BA TE. APA FIER RI LES, EINE. AIEEE 
































在 表示 的 紧凑 性 上 具有 一 定 的 优雅 性 (单个 着 色 和 标注 的 矩形 可 以 同时 
显示 某 些 数据 的 三 个 或 者 更 多 独立 的 特征 〉。 每 个 节点 (一 个 矩形 〉 的 
简单 的 几何 图 形 本 身 就 表示 大 量 的 数据 集 ， 因 为 一 个 树 形 图 可 以 同时 显 
示 的 节点 数目 几乎 和 一 个 屏幕 上 的 所 有 像素 一 样 多 。 由 于 层次 的 语义 包 
含 天 系 是 直接 表示 为 树 形 图 中 的 几何 包含 关系 〔 父 节点 包含 子 节 点 ) ， 
这 种 方式 让 人 感觉 更 优雅 。 

我 们 认为 采用 树 形 图 来 表示 大 量 的 地 理 和 专题 分 类 记录 信息 具备 潜 
在 可 能 性 ， 而 且 我 们 发 现 通过 构建 新 的 分 类 这 种 方式 探索 Geograph 数 据 
集中 的 海量 记录 数 是 可 能 的 。 

然而 ， 由 于 很 多 原因 ， 树 形 图 广 受 人 们 的 批判 。 滑 稽 的 是 ， 人 们 批 
判 的 是 树 形 图 的 艺术 性 (Cwthon 和 vande Moere 2007) ， 但 是 我 们 认为 这 
是 功能 实现 上 的 问题 ， 而 不 是 设计 本 身 。 

更 值得 注意 的 是 ， 在 树 形 图 中 任意 放置 节点 可 以 显著 降低 “数据 /位 
置 ” 的 比例 。 绝 大 多 数 现 有 的 树 形 图 布局 算法 定位 这 些 节 点 是 为 了 最 大 
化 它们 的 “高 / 宽 ” 的 比例 (使 长 方形 尽 可 能 接近 方正 ， 对 于 审美 和 大 小 比 
较 任务 是 很 重要 的 ) ， 而 且 为 了 提高 可 阅读 性 (最 大 化 水 平 上 的 线性 连 
续 性 ) 。 很 少 有 人 会 关心 如 何 使 用 图 形 的 位 置 来 表示 该 数据 的 菜 些 方面 
特征 。 因 此 ， 树 形 图 包含 线性 不 一 致 性 以 及 节点 位 置 的 任意 放置 〈 见 图 
6-3) 。 这 些 对 立 面 创建 了 制图 学 和 统计 图 形 的 最 佳 实践 ， 其 中 平面 上 
的 位 置 被 认为 是 表示 关系 信息 的 最 主要 方式 (Brtin 1983) 。 在 树 形 图 内 
的 节点 的 任意 位 置 都 无 法 利用 “ 认 知 地 理 第 一 定律 "(Fbrikant 等 2002〉， 
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图 6-3: 两 个 简单 的 树 形 图 。 ( 左 图 ) 通过 传统 的 方块 化 (suarified) 
布局 方式 ( 按 序 着 色 ) 放置 的 20 个 有 序 节 点 。 注 意 没有 使 用 前 后 一 致 的 
位 置 来 表示 有 序 的 1~20 序 列 。 ( 右 图 ) 空间 树 形 图 ， 其 节点 是 根据 它 
们 相应 的 地 理 位 置 ( 按 范围 着 色 ) 来 放置 的 

我 们 认为 在 一 个 二 维 树 形 图 中 ， 根 据 数据 中 的 一 维 次 序 或 者 二 维 次 
序 ， 对 所 有 层次 的 节点 进行 排序 是 可 行 的 Wod 和 Dykes 2008) 。 通 过 这 
种 处 理 方式 ， 我 们 解决 了 和 树 形 图 关联 的 一 个 关键 问题 ， 即 主要 的 信息 
载体 维度 ， 通 过 一 维 《〈 或 者 多 维 ) 的 数据 维度 对 它们 进行 映射 ， 但 这 并 
没有 达到 充分 利用 的 效果 。 简 而 言 之 ， 我 们 在 树 形 图 内 部 使 用 空间 来 表 
示 一 维 上 有 序 的 或 者 二 维 上 按 空 间 排 列 的 数据 。 














Geograph 在 使 用 条 球 上 的 观点 


“地 方 ”(pace) 的 概念 是 很 复杂 的 ， 不 能 简单 地 通过 经 纬度 来 很 好 地 描 
述 。 地 方 不 仅仅 是 一 个 位 置 ， 而 且 它 也 说 明了 创建 一 个 地 方 的 感觉 所 包 
含 的 特征 本 质 。 它 可 以 依赖 于 无 形 的 、 主 观 的 甚至 有 了 时 对 立 的 特征 ， 这 
些 特征 传统 上 无 法 通过 数字 数据 集 来 很 好 地 进行 展示 。 志 愿 者 收集 的 或 
社区 参与 者 贡献 的 地 理 信 息 ， 如 可 以 通过 Geograph 项 目 获 取 的 地 方 的 个 
人 描述 ， 为 我 们 提供 了 新 的 多 角度 方式 来 访问 信息 。 这 些 可 能 会 反映 很 
多 观点 ， 而 且 当 我 们 努力 通过 更 有 效 的 方式 来 描述 一 个 地 方 时 ， 促 使 我 
们 开始 考虑 对 该 地 方 的 其 他 想法 。 

Ross Purves 和 Alistair Edwardes 在 Zurich 大 学 做 研究 时 ， 一 直 使 用 
Geograph 项 目的 数据 作为 描述 地 方 的 参考 来 源 。 他 们 的 最 终 目 标 是 通 
为 描述 地 理 的 数字 图 像 自动 添加 索引 项 ， 用 来 改进 信息 检索 ， 这 些 数 字 
图 形 和 某 个 地 方 的 流行 观点 相关 ， 如 “山脉 ” “偏远 ?或 “徒步 旅行 "。 他 
们 的 工作 涉及 验证 先前 的 研究 ， 并 通过 比较 Geograph 项 目的 数据 和 当前 
为 了 描述 地 方 所 付出 的 努力 来 形成 新 的 观点 ， 以 及 分 析 在 地 理 描述 中 的 
术语 共 现 度 (Ewardes 和 Purves 2007) 。 

在 学 术 上 流行 的 方法 涉及 识别 所 描述 地 方 的 基层 或 场景 类 型 。 这 些 
对 地 方 的 综合 描述 已 经 通过 传统 地 人 为 主观 测试 的 方式 推导 出 。 这 些 描 
述 之 间 很 难 协 调 ， 而 且 通 常 参 与 的 人 数 很 少 ， 使 得 人 们 很 难 对 结果 进 
泛 化 或 者 重新 做 那些 实验 。Edwardes 和 Purves 评 估 了 Geograph 项 目的 参 

















与 者 所 使 用 的 方式 ， 对 场景 类 型 如 山地 、 丘 陵 、 山 谷 、 河 流 、 岩 石 、 消 
TH. BON. BES PEDE. WORE HER, AB SINT PRY 
术语 以 及 这 些 术 语 使 用 程度 有 很 大 关联 (Ewardes 和 Purves 2007) 。 

随 着 数据 集中 所 使 用 的 术语 在 一 定 程度 上 得 到 了 验证 ， 我 们 共同 确 
定 探 索 自然 、 结 构 和 Geograph 项 目 数据 三 者 之 间 的 一 些 关 系 的 地 理 特征 
存在 着 机 遇 。 特 别 地 ， 我 们 期 望 能 够 理解 以 下 几 个 方面 之 间 的 关系 : 照 
片 内 容 、 照 片 位 置 以 及 这 些 照 卢 提 供 者 的 标注 中 记录 的 关于 某 个 地 方 的 
文本 描述 。 可 视 化 方式 看 起 来 很 合适 ， 而 且 树 形 图 技术 使 我 们 能 够 探索 
Geograph 项 目的 以 上 这 些 特 征 。 

以 下 的 例子 记录 了 一 些 方式 ， 这 些 方式 中 的 空间 树 形 图 和 其 他 图 形 
被 用 于 探索 Geograph 项 目 ， 因 为 我 们 开发 了 该 项 目 数 据 集 的 共享 知识 
库 ， 用 来 表达 我 们 对 地 方 的 描述 的 理解 。 

表示 术语 分 类 

Geograph 项 目 档案 在 2008 年 4 月 进行 了 处 理 ， 当 时 大 约 为 75 万 的 图 片 
提供 了 标题 和 文本 描述 来 说 明 其 地 理 信 息 。 我 们 重点 研究 与 六 个 基础 层 
次 相关 的 图 片 ， 或 者 通过 Edwardes 和 Purves 的 分 析 ， 被 认为 特别 有 意思 
的 场景 : 海滩 、 乡 村 、 城 市 、 公 园 、 山 脉 和 丘陵 。 对 于 这 些 场 景 类 型 ， 
我 们 为 每 个 在 以 下 三 个 不 同方 面 选 择 了 最 受 欢 迎 的 描述 词 : 活动 (主要 
是 动词 ) 、 元 素 〈 主 要 是 名 词 》 和 品质 《主要 是 形容 词 )》 。 这 种 方式 产 
生 了 六 种 场景 类 型 的 术语 共 现 分 类 ， 每 种 场景 包括 三 个 方面 ， 每 个 方面 
包含 和 场景 类 型 相关 的 很 多 描述 符 。 树 形 图 反映 了 对 于 选 定 的 包含 一 个 























流行 描述 符 的 场景 类 型 ， 其 每 个 共 现 度 所 包含 的 节点 的 分 类 ， 并 展示 了 
在 Geograph 项 目 所 使 用 的 描述 的 一 些 结构 。 图 6-4 所 表示 的 树 形 图 采用 
了 有 序 的 方块 化 布局 算法 来 优化 节点 的 形状 和 位 置 一 致 性 (Wod 和 Dykes 
2008) 。 叶 子 市 点 (各 个 子 图 ) 是 单位 大 小 。 
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图 6-4: 对 于 六 种 选 定 的 场景 类 型 ， 其 出 现在 地 理 标题 和 评论 的 描 
述 的 树 形 图 。 节 点 大 小 表示 术语 的 出 现 频率 。 颜 色 突 出 了 包含 一 种 继承 
随机 方案 的 场景 类 型 / 刻 面 (fceb/ 描 述 符 分 类 。 布 局 采用 “有 序 的 方块 
化 ”方法 来 维持 节点 之 间 的 方块 形状 ( 见 彩 图 14) 

图 6-4 中 的 每 个 节点 都 采用 一 种 继承 随机 方案 来 对 场景 类 型 进行 着 
色 ， 而 且 孩 子 节点 《〈 刻 面 、 描 述 符 和 地 理科 学 本 号 ) 继承 了 这 种 着 色 方 
案 ， 只 有 微小 的 颜色 差别 。 虽 然 闫 色 本 身 并 没有 独立 的 涵义 ， 但 是 采用 
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这 种 着 色 方 案 来 突出 这 种 分 类 方式 的 层次 结构 。 这 种 布局 和 颜色 编码 的 
结合 有 助 于 我 们 通过 展现 结构 和 鼓励 视觉 对 比 来 探索 数据 。 例 如 ， 我 们 
发 现 丘 陵 (hD) 这 个 词 比 公园 、 乡 村 、 城 市 、 沙 滩 和 山脉 这 些 词 更 流行 ， 
因为 它 在 树 形 图 中 占 了 更 大 的 区 域 面积 。 在 这 些 场景 类 型 中 ， 元 素 刻 面 
始终 比 品质 或 活动 更 为 流行 。 活 动 方面 和 公园 相关 性 特别 强 。 描 述 
符 “ 公 路 ”在 四 种 场景 类 型 中 都 居 首 要 地 位 ， 而 不 是 “沙滩 ”或 者 “山脉 ”。 
对 于 丘陵 和 山脉 ， 描 述 符 如 山谷 和 小 路 与 丘陵 一 起 使 用 得 更 频繁 ， 虽 然 
相对 而 言 ， 这 些 描述 和 山脉 更 相关 。 而 湖泊 和 山脉 一 起 使 用 得 更 频繁 。 
小 径 是 对 与 丘陵 相关 的 流行 的 描述 符 ， 而 不 是 山脉 。 这 种 数据 密集 的 信 
息 之 美的 一 个 重要 方面 是 很 多 其 他 关系 是 同时 显示 ， 而 且 可 能 是 同样 被 
报道 。 我 们 可 以 通过 远 远 多 于 1000 个 的 文字 来 继续 描述 这 些 图 片 。 
基于 对 各 种 Geograph 的 图 形 数 据 的 理解 上 的 经 验 ， 我 们 这 里 已 经 采 
取 了 一 系列 的 设计 决策 。 一 个 有 用 的 可 选 方案 是 采用 “切片 和 切 块 ”的 布 
局 算法 。 其 结果 是 一 个 马赛 克 图 ， 使 得 其 内 的 每 个 场景 类 型 和 刻 面 的 大 
小 比例 更 易于 关联 在 一 起 ， 因 为 是 通过 长 度 而 不 是 区 域 来 进行 比较 在 
图 6-5 上 方 ) 。 但 是 ， 把 生成 的 节点 拉 长 ， 意 味 着 不 同 描述 之 间 的 标注 
和 大 小 估计 会 变 得 更 加 困难 。 一 个 折 中 的 方案 是 应 用 有 序 的 方块 化 算法 
来 对 叶子 节点 进行 排列 〈 在 图 6-5 底 部 ) 。 通 过 这 种 在 不 同 的 分 类 级 别 
所 做 的 布局 和 颜色 实验 ， 有 助 于 我 们 突出 和 探索 数据 集中 的 各 种 显著 
的 “品质 ”。 



































图 6-5: 对 于 六 种 选 定 的 场景 类 型 ， 其 出 现在 地 理 标题 和 评论 的 描 
述 的 树 形 图 。 节 点 大 小 表示 术语 出 现 频率 。 颜 色 突出 了 包含 一 种 继承 的 
随机 方案 的 场景 类 型 / 刻 面 /描述 符 分 类 。 布 局 采用 “切片 和 切 块 ”的 方 
法 来 增强 维度 (上 图 ) 间 的 比较 和 “切片 和 切 块 /有 序 的 方块 化 ”方法 
来 改进 标注 的 可 读 性 ， 如 下 部 的 图 ( 见 彩 图 15) 

通过 颜色 表示 绝对 地 理 位 置 

虽然 图 6-4 和 图 6-5 中 的 树 形 图 提供 了 如 何 描述 地 方 的 一 些 信息 ， 但 是 
它们 几乎 没有 提 到 该 地 方 与 地 理 位 置 之 间 的 关系 。 我 们 探索 了 一 系列 的 
方式 给 树 形 图 增加 地 理 位 置信 息 。 第 一 种 方式 是 采用 颜色 来 提供 大 不 列 
颠 群 岛 之 内 的 绝对 地 理 位 置信 息 。Geograph 数 据 的 地 理 位 置信 息 是 通 
过 “ 东 辣 ”(esting) 和 “北向 ”nrthing) 坐 标 组 的 投影 来 存储 的 ， 它 们 记录 了 
该 地 理 位 置 到 英国 国家 电网 (Bitish National Grid) 起 源 地 区 的 东部 和 北部 
距离 。 

我 们 面临 的 挑战 是 通过 一 个 颜色 来 表示 照片 地 理 位 置 的 两 个 维度 

( 东 向 和 北向 )， 该 颜色 能 够 把 该 照片 和 其 他 不 同 地 区 的 照片 区 别 开 。 
绝 大 多 数 的 颜色 空间 是 通过 三 个 部 分 (如 红色 、 绿 色 和 更 色 ， 或 者 色 
调 、 饱 和 度 和 亮度 ) 定义 的 ， 因 此 只 选择 两 个 部 分 来 表示 一 组 坐标 是 有 
问题 的 。 此 外 ， 绝 大 多 数 颜 色 方 案 在 主观 感觉 上 就 是 不 一 致 的 ， 换 句 话 
说 ， 两 种 颜色 之 间 在 色彩 板 上 存在 固定 的 视觉 差距 。 因 此 ， 我 们 决定 采 
用 CIELab 颜 色 模型 ， 其 提供 了 一 种 在 感官 上 感觉 更 一 致 的 色 阶 方案 。 通 

过 色彩 空间 的 a 和 b 两 个 分 量 表示 每 个 照片 的 “ 东 向 ”和 “北向 ”位 置 ， 我 们 











能 够 生成 一 个 颜色 地 图 ， 其 中 西南 地 区 是 橙色 的 ， 东 南 地 区 是 绿色 的 ， 
东北 地 区 是 蓝 色 的 ， 而 西北 地 区 是 紫色 的 。 中 部 地 区 趋向 于 神色 ， 两 个 
节点 间 的 颜色 相似 度 说 明了 它们 所 表示 的 照片 的 地 理 位 置 的 相似 度 。 通 
过 这 种 方式 对 图 6-6 有 序 的 方块 化 树 形 图 中 的 节点 (和 图 6-4 不 同 〉 进 行 


着 色 。 











图 66: “有 序 的 方块 化 ” 树 形 图 ， 其 颜色 是 通过 CIELab 颜 色 模 型 





的 一 种 色彩 空间 来 显示 绝对 的 地 理 位 置 ， 在 该 空间 中 ， 主 观感 党 到 的 闫 
色 区 别 和 地 理 位 置 的 差异 紧密 相关 ( 见 彩 图 16) 

从 这 个 观点 来 看 ， 地 理 位 置 对 地 方 的 描述 带 来 的 影响 是 显而易见 
的 ， 这 一 点 可 能 或 励 我 们 从 空间 角度 来 探索 Geograph 项 目的 数据 档案 。 
例如 ， 小 径 、 顶 峰 和 石 冢 展示 了 高 山 草 地 不 同 的 地 理 特征 : SE. Ta 




















和 交界 点 则 表示 丘陵 的 不 同 地 理 特征 ;， 而 山脉 、 沙 滩 、 乡 村 有 不 同 的 地 
理 位 置 特 征 ; 在 沙滩 内 的 活动 和 品质 有 显著 不 同 的 地 理 特 征 。 地 理 位 置 
和 地 方 之 间 相 关 的 一 些 复杂 性 也 很 明显 。 

通过 空间 树 形 图 表示 相对 地 理 位 置 

使 用 颜色 来 表示 地 理 位 置 有 一 定 的 艺术 之 美 ， 并 为 地 理 位 置 -地 方 
(dcation-place) 的 关系 提供 了 一 定 的 洞察 力 ， 但 是 其 在 有 效 性 上 具有 一 定 
的 局 限 性 。 特 别 地 ， 它 要 求 用 户 为 颜色 和 地 理 位 置 的 对 应 关系 分 配 内 
存 。 图 6-6 显 示 的 树 形 图 也 没有 以 任何 有 意义 的 方式 来 使 用 市 点 位 置 。 
因此 ， 我 们 可 以 把 每 个 照片 的 地 理 位 置 映射 到 树 形 图 中 的 节点 位 置 ， 这 
样 北 部 的 照片 会 出 现在 每 个 封闭 的 节点 空间 的 上 方 ， 西 部 的 照片 出 现在 
左上 方 等 。 由 于 树 形 多 会 通过 非 交 肢 矩 形 来 填充 空间 ， 我 们 无 法 提供 精 
确 的 地 理 位 置 空间 映射 ， 但 是 这 种 布局 方式 确实 说 明了 市 点 的 相对 位 
置 ， 因 而 增加 了 “数据 /地 理 位 置 ” 的 比率 。 如 果 我 们 对 探索 地 理 位 置 方 面 
的 地 方 描述 符 感 兴趣 ， 则 可 以 采用 CIELab 着 色 方 案 来 突出 绝对 的 地 理 位 
置 ， 或 者 在 保留 很 强 的 制图 隐 式 表现 前 提 下 ， 用 颜色 表示 数据 的 一 些 其 
他 方面 “比如 术语 的 重要 性 ) 。 图 6-7 保 留 了 有 序 的 方块 化 布局 方式 来 
进行 术语 分 类 ， 但 是 根据 地 理 位 置 ， 对 每 个 描述 符 的 节点 进行 重新 排 
列 。 

在 该 图 中 ， 山 脉 的 粉色 、 紫 色 和 神色 显示 了 该 术语 是 用 于 北部 和 西 
部 ， 虽 然 如 围栏 、 热 木 、 四 地 和 黑色 这 类 术语 和 这 种 模式 不 一 致 ， 但 是 
它们 也 显示 了 自己 的 地 理 特征 。 沙 滩 的 生动 形象 的 色彩 显示 了 这 种 场景 























类 型 周围 的 海岸 的 自然 特性 ， 而 城市 更 柔和 的 颜色 则 表示 它 是 中 央 地 
TE o 

图 6-8 通 过 对 所 有 市 把 使 用 空间 排 友 方 法 ， 更 进一步 加 强 了 显示 效 
条 。 它 显示 了 选 定 的 六 种 场景 类 型 的 地 理 和 分 类 特征 。 

表示 地 理 位 置 位 移 

里 然 在 分 类 结构 中 ， 我 们 可 以 识别 出 一 些 空间 模式 ， 而 为 了 使 节点 
能 够 完全 镖 骨 于 树 形 图 空间 中 ， 市 上 的 显示 和 真实 的 地 理 位 置 的 偏 移 程 
度 是 不 确定 的 。CIELab 的 着 色 方案 可 以 提供 这 种 偏 移 的 表示 ; 注意 图 6- 
7 中 的 沙滩 的 品质 和 活动 方面 的 不 同 颜 色 ， 或 者 在 城市 /元 素 / 舞 厅 和 小 
山 /元 系 / 农 场 之 间 的 不 一 致 性 。 我 们 可 以 做 出 进一步 的 改变 ， 但 是 这 种 
改变 是 通过 说 明 在 地 理 上 ， 一 张 照片 或 者 一 组 照 上 如 何在 镶 骨 过 程 中 从 
地 理 坐 标 转换 过 来 。 为 了 实现 这 点 ， 我 们 遵循 Skupin 和 
Fabrikant (2003) 的 建议 ， 他 们 认为 认 知 上 似是而非 的 制图 需要 采用 合 
适 的 方法 来 表达 这 种 位 置 错误 。 














图 67: “有 序 的 方块 化 ” 树 形 图 ， 通 过 CIELab 色 彩 空间 的 颜色 显 
示 绝 对 的 地 理 人 位置。 包含 描述 符 节 点 的 叶子 节点 ， 使 用 空间 有 序 算 法 ， 
通过 地 理 位 置 做 关联 排序 ( 见 彩 图 17) 

图 6-8 在 树 形 图 上 县 加 了 一 组 线条 集合 。 这 些 线条 把 每 个 节点 的 树 形 
图 位 置 连接 到 其 地 理 位 置 -线条 越 长 ， 位 移 越 大 。 例 如 ， 海 滩 上 与 品质 








和 活动 方面 相关 的 位 移 同 量 ， 尽 管 它们 在 空间 树 形 图 中 是 并 列 的 ， 但 是 
这 些 位 移 向 量 证 实 了 我 们 之 前 指出 的 不 同 地 理 特征 。 创 建 这 些 线条 背后 
的 设计 目标 是 为 树 形 图 提供 额外 的 空间 环境 ， 而 同时 保持 能 够 探索 术语 
分 类 。 图 6-8 中 ， 粗 线条 用 于 显示 场景 类 型 的 位 移 ， 而 不 是 刻 面 的 位 

移 。 因 此 ， 在 显示 地 理 位 移 时 ， 使 用 的 是 非 第 细 的 线条 ， 因 为 在 树 形 图 
中 ， 在 地 理 上 的 照片 位 置 和 叶子 节点 的 位 置 之 间 可 以 描绘 成 干 上 万 的 线 




















条 。 图 6-9 给 出 了 一 个 示例 ， 在 该 例子 中 ， 位 移 同 量 在 其 节点 位 置 终端 
比 其 地 理 位 置 终端 弯曲 度 更 大 。 这 有 助 于 突出 任何 的 节点 空间 聚 类 ， 正 
如 图 6-9 给 出 的 在 多 数 情 况 下 的 例子 ， 也 提供 了 对 位 移 趋势 的 总 体 概 
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这 种 术语 分 类 以 及 相对 和 绝对 地 理 位 置 的 并 发 视图 ， 人 允许 我 们 考虑 
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这 种 空间 安排 可 能 会 吸引 我 们 注意 新 的 关系 。 举 个 例子 ， 马 路 、 小 
路 和 小 径 表 示 类 似 的 功能 ， 但 是 当 和 丘陵 一 起 使 用 时 ， 它 们 分 别 有 不 同 
的 地 理 特征 ;钓鱼 和 曲棍球 是 乡村 中 不 同 地 理 位 置 的 活动 ， 比较 乡村 中 
的 礼拜 备 和 大 教堂 ， 或 者 山上 的 高 尔 夫 球场 和 公园 的 高 尔 夫 球场 。 图 6- 
10 显 示 了 海滩 上 的 一 些 元 素 的 特写 ， 这 些 特写 帮助 我 们 从 其 他 方面 中 发 
现 以 下 几 点 : 通过 潮汐 的 积聚 场所 形成 的 瑞 国 海 翌 线 的 的 各 个 方面 ， 南 
部 地 区 突出 了 海滩 内 的 路 径 和 基 上 峙 ;而 东南 部 地 区 突出 了 与 海滩 /元 素 / 
海港 相关 的 特定 的 地 理 集群 ， 以 及 西北 中 部 地 区 突出 了 海滩 /元 系 / 海 
港 。 

















图 6-8: 对 于 六 种 选 定 的 场景 类 型 ， 其 出 现在 地 理 标题 和 评论 的 描 
述 的 空间 树 形 图 。 节 点 大 小 表示 词 频 ， 颜 色 表 示 使 用 CIELab 方 案 的 绝对 
空间 地 理 位 置 。 位 移 向 量 表 示 非 叶子 节点 的 绝对 地 理 位 置 如 场景 类 型 、 
刻 面 和 描述 符 ( 见 彩 图 18) 


AZ S 








我 们 考虑 的 是 大 规模 分 类 数据 集 的 空间 上 有 序 的 空间 树 形 图 ， 该 树 
形 图 的 “数据 /地 理 位 置 比率 ”很 高 ， 在 审美 上 令 人 赏心悦目 ， 而 且 把 本 章 
中 提供 的 数字 作为 描述 数据 之 美的 备 选 。 但 是 ， 美 丽 的 事物 应 该 是 清 
晰 、 可 用 的 ， 而 且 最 终 必 须 是 令 人 满意 且 优 雅 。Matsumoto (2007) 通 
过 计算 机 代码 环境 表达 了 这 种 观点 ， 坚 信 优 美的 代码 必须 具备 可 读 性 。 
但 是 ， 正 如 地 图 使 得 复杂 的 地 理 数据 以 适合 目的 的 方式 获得 了 可 读 性 ， 
这 种 方式 可 以 决定 很 多 空间 关系 ， 实 现 如 航海 、 地 理 比较 和 模式 检测 的 
功能 。 因 此 ， 我 们 的 目标 是 通过 图 形 的 可 读 性 ， 使 得 Geograph 项 目的 语 
言 具 有 地 理 分 析 意 义 。 我 们 能 读 懂 Geograph 数 据 吗 ? 我 们 认为 Geograph 
项 目 中 的 图 形 以 及 其 他 的 图 形 意味 着 我 们 在 诠释 现 有 的 、 丰 富 的 、 美 丽 
的 地 理 数 据 集 上 有 了 不 断 深 入 发 展 ， 而 且 使 用 通过 分 析 确 定 的 描述 和 地 
理 位 置 之 间 的 各 种 关系 获取 知识 ， 根 据 获取 的 这 些 知识 采取 措施 。 














图 6-9: 对 于 六 种 选 定 的 场 最 类 型 ， 其 出 现在 地 理 标题 和 评论 的 词 
汇 的 空间 树 形 图 。 位 移 向 量 表 示 非 叶子 节点 的 绝对 地 理 位 置 ( 共 现 
词 ) ， 并 提供 了 关于 位 移 的 空间 聚 类 和 空间 趋势 的 信息 来 满足 树 形 图 的 
空间 填充 目标 〈 见 彩 图 19) 

这 些 场景 视图 中 描述 的 空间 关系 依赖 于 宽 高 比 和 叶子 节点 的 平均 地 
理 位置 。 我 们 可 能 会 对 比 这 里 所 描述 的 更 精确 的 地 理 位 置 感 兴趣 ， 而 且 
数据 密集 的 树 形 图 对 于 为 更 传统 的 映射 选择 候选 的 刻 面 和 描述 符 一 直 都 
很 有 用 。 通 过 树 形 图 推导 出 的 词汇 共 现 图 能 够 帮助 我 们 确定 在 术语 使 用 
上 可 量化 的 空间 区 别 。 举 个 例子 ， 我 们 发 现在 南部 和 西南 部 地 区 ， 山 谷 
和 丘陵 共 现 的 频率 比 期 望 的 还 高 ， 而 在 北部 地 区 ， 顶 峰 和 丘陵 一 起 使 用 
更 频繁 。 而 且 当 使 用 Geograph 项 目的 数据 中 其 他 可 选 的 描述 方式 时 ， 这 











些 关 系 在 不 同 程度 上 一 直 存 在 。 它 们 可 能 会 反映 在 选择 需要 记录 的 场景 
的 特定 方面 有 偏好 : 区 域 地 理 特征 、 语 言 区 别 、 在 特定 地 方 贡 献 图 片 的 
个 人 偏好 ， 或 者 以 上 这 些 特征 的 结合 。 不 论 怎 么 理解 ， 我 们 对 树 形 图 的 
理解 ， 由 于 其 他 地 方 的 局 发 ， 引 起 了 我 们 对 一 些 其 他 地 方 的 地 理 特 征 的 
兴趣 。 同 时 需要 注意 的 是 这 里 使 用 了 一 些 较 生 硬 的 词汇 来 描绘 乡村 。 这 
些 趋势 可 能 并 非 是 有 意识 的 偏见 ， 而 可 能 是 和 为 Geograph 项 目 选 择 一 些 
令 人 英 心 悦目 的 景观 方面 相关 一 一 这 意味 着 我 们 对 这 些 数据 的 理解 使 我 
们 更 加 坚信 人 处理 的 数据 之 美 。 我 们 打算 继续 探索 和 分 析 这 种 关于 地 图 和 
更 正规 的 空间 地 理 术 语 。 用 户 选 定 的 描述 性 术语 的 地 理 特征 的 以 上 及 其 
他 方面 ， 有 助 于 描述 地 方 的 “本 体 ” 特 征 的 发 展 。 


























图 6-10: 在 beach 基 础 区 块 中 出 现 的 对 选 定 元 素 的 描述 符 在 地 理 标 
题 和 评论 中 出 现 的 术语 的 空间 树 形 图 。 位 置 向 量 表示 图 6-9 中 放大 部 分 
的 叶子 节点 的 绝对 地 理 位 置 〈 见 彩 图 20) 

我 们 的 图 形 和 探索 是 不 全 面 的。 我 们 正在 研究 由 社区 参与 者 贡献 的 
地 理 信息 中 存在 的 系统 偏见 所 造成 的 影响 ， 并 提出 策略 来 减轻 这 些 影 





啊 。 我 们 正在 制定 标识 符 ， 用 来 描述 视觉 设计 空间 和 交互 式 应 用 ， 通 过 
这 些 标识 符 可 以 做 出 进一步 的 探索 。 我们 尚未 考虑 在 Geograph 项 目 中 所 
确定 的 在 地 理 上 不 同 的 关系 是 否 会 随 着 时 间 推 移 而 依然 保持 一 致 。 然 

而 ， 这 里 所 描述 的 方法 帮助 我 们 获取 知识 ， 克 服 当 考 虑 规模 、 结 构 、 多 
样 性 和 复杂 性 时 会 面临 的 各 种 不 利 条 件 。 但 是 ， 除 了 居住 在 茶 个 地 方 的 
大 量 的 志愿 者 共同 努力 外 ， 谁 还 能 更 好 地 帮助 我 们 了 解 这 个 地 方 ? 此 

外 ， 除 了 通过 精心 设计 的 多 元 图 形 来 揭示 结构 和 帮助 友 现 ， 如 何 能 更 好 
地 探索 在 描述 范围 之 内 的 条 个 地 方 的 意义 ? 


反思 和 结论 


我 们 认为 数据 之 美 在 于 其 深度 。 当 先前 隐藏 着 的 结构 和 模式 开始 展 
现 出 来 时 ， 美 丽 就 显现 出 来 。 这 些 模式 激 友 了 人 们 对 数据 提出 新 的 想法 
和 质疑 。 数 据 激 发 人 们 、 或 励 探 索 并 为 探索 者 提供 调 察 力 。 只 要 存在 空 
间 数 据 ， 就 可 能 呈现 地 理 之 美 。 

美丽 的 数据 激励 人 们 实现 优雅 的 数据 可 视 化 策略 ， 正 如 它 也 激励 探 
索 并 回报 那些 探索 者 。 可 视 化 特别 适合 于 探索 地 理 模 式 ， 正 如 好 几 个 世 
纪 的 制图 学 所 证 明 的 。 

我 们 这 里 给 出 的 例子 说 明了 我 们 可 以 如 何 使 用 美丽 的 数据 ， 如 
Geograph 项 目的 数据 的 地 理 特 征 ， 从 以 一 个 视图 的 方式 到 使 用 为 信息 管 
理 和 检索 的 应 用 场景 的 描述 来 描述 一 个 地 方 。 复 杂 、 数 据 密 集 且 优雅 的 
图 形 是 该 过 程 的 重要 部 分 。 

我 们 广泛 地 认为 美丽 是 一 个 实体 的 特征 ， 它 给 人 们 提供 快乐 、 意 义 
或 满足 。 对 于 数据 及 其 表示 ，Geograph 项 目的 各 个 方面 都 包含 了 这 些 特 
征 品质 。 我 们 对 包含 高 度 的 “数据 /地 理 位 置 ?比率 ， 通 过 空间 填充 图 形 的 
Geograph 项 目的 茶 些 方面 所 做 的 可 视 化 ， 是 主 于 创新 、 有 创意 的 ， 而 且 
具备 解决 问题 的 基础 。 它 有 助 于 沟通 同事 间 的 工作 ， 并 开辟 新 的 分 析 途 
径 。 我 们 将 及 时 发 布 人 们 对 大 不 列 题 群岛 的 人 文 和 目 然 地 理 这 些 数据 密 
集 的 描述 ， 作 为 我 们 所 创 造 的 最 美丽 的 数据 。 
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第 7 草 BRB 


Jeff Jonas 和 Lisa Sokol 


新 一 代 的 “智能 ”信息 管理 系统 将 不 会 依赖 于 用 户 癌 计 算 机 提出 一 些 
异想天开 的 问题 ， 相反 地 ， 捷 们 会 目 动 确 定 新 观察 到 的 现象 是 否 可 以 表 
示 有 足够 理由 去 做 出 茶 种 啊 应 ， 如 给 用 户 或 系统 发 送 关 于 潜在 隐患 或 者 
危险 的 自动 通知 。 

一 个 组 织 最 多 只 会 和 它 的 所 有 成 员 的 洞察 力 总 和 一 样 有 智慧 。 这 些 
智慧 源 于 观察 一 一 通过 各 种 企业 系统 收集 到 的 观察 ， 如 客户 登记 系统 、 
财务 会 计 系统 和 薪水 系统 。 每 一 次 交易 ， 企 业 组 织 都 可 以 从 中 学 到 一 些 
东西 。 因 为 在 某 个 时 刻 获 知 了 一 些 信息 ， 才 有 了 一 些 机 遇 来 弄 清 该 新 数 
据 的 涵义 并 做 出 适当 的 啊 应 ， 实 际 上 这 也 是 一 种 义务 。 举 个 例子 ， 客 户 
记录 的 当前 地 址 变化 是 人 否 表示 该 客户 和 你 的 最 重要 的 50 个 客户 之 一 相 
A 如 果 一 个 企业 组 织 不 能 评估 新 的 数据 点 如 何 实时 地 与 其 历史 数据 相 
天， 那么 该 组 织 将 会 错失 采取 行动 的 机 会 。 

当 “ 数 据 可 以 发 现 数 据 * 时 ， 存 在 着 通过 洞察 力 找 到 用 户 的 机 超 。 

数据 如 何 发 现 数 据 是 关于 数据 可 发 现 性 的 声明 ， 是 对 已 有 的 信息 和 
新 的 数据 进行 定位 和 关联 所 能 达到 的 程度 。 可 发 现 性 要 求 能 够 召回 相关 
的 历史 数据 ， 这 样 新 到 达 的 数据 可 以 定位 到 该 位 置 ， 这 和 每 个 拼图 游戏 
的 方式 相似 ， 它 们 是 通过 其 他 相关 的 正在 进行 中 的 谜 题 来 评估 的 。 每 个 
新 的 谜 题 都 是 增 量 式 地 构建 在 已 知 的 方面 ， 每 个 给 定点 在 时 间 上 和 不 断 
发 展 的 拼图 相关 。 通 第 来 说 ， 新 的 信息 虽然 对 于 构建 全 局 大 图 很 重要 ， 















































但 是 它们 自己 本 映 并 没有 带 来 新 的 至 关 重 要 的 信息 。〔 相 反 地 ， 有 些 信 
恩 可 能 会 改变 谜 题 结构 ， 这 种 改变 导致 产生 报警 一 一 结果 发 现 是 由 于 茶 
个 拼图 放置 错位 ，。 正 是 在 这 个 时 刻 ， 妆 新 的 谜 题 能 够 重新 改变 图 像 的 
结构 ， 发 现 就 产生 了 。 实 时 发 现 不 需要 用 户 三 思 而 后 行 并 在 恰当 的 时 候 
提出 正确 的 问题 。 

那些 无 法 切换 到 “数据 友 现 数据 ”模式 的 组 织 ， 其 苋 搜 力 更 差 且 效率 
将 会 更 低 。 











实时 发 现 的 好 处 


立足 于 “数据 发 现 数据 ?的 高 级 信息 管理 系统 ， 不 会 依赖 于 用 户 同 计 
算 机 凭空 提出 正确 的 、 相 关 的 和 即时 的 问题 。 虽 然 该 技术 会 引发 新 的 策 
略 探讨 ， 如 允许 哪些 数据 去 发 现 哪 些 数据 以 及 什么 级 别 的 相关 度 应 该 通 
知 谁 ， 以 下 是 “数据 发 现 数据 ?系统 可 以 做 什么 的 一 些 例子 : 

客户 便利 

在 酒店 辑 转 反 侧 一 宿 后 ， 客 人 在 早上 7 点 时 终于 决定 打 电话 要 求 晚点 
退 房 ， 并 预约 了 中 午 的 电话 叫 醒 服务 功能 。 客 人 刚 这 睡 不 入， 服务 员 无 
意 融 门 准备 打扫 房间 ， 于 是 友 生 了 令 人 不 愉快 的 事情 。 遗 憾 的 是 ， 全 世 
FAVE ic, PRD i AE. SRR RMB, WEIR as AY i 
电话 需要 和 服务 员 调 度 信息 保持 一 致 。 这 种 “数据 发 现 数据 ”的 事件 会 触 
发 一 条 自动 的 文本 信息 ， 通 知 服务 员 在 下 午 2 点 前 不 要 打扫 该 房间 

客户 服务 

某 个 用 户 对 于 一 本 即将 出 版 的 新 书 感 兴趣 ， 他 在 Amazon 搜 索 该 书 标 
题 ， 但 是 没有 找到 。 该 用 户 决 定 每 个 月 都 检查 一 下 ， 直 到 该 书 出 版 。 遗 
司 的 是 ， 该 用 户 下 一 次 检查 时 ， 发 现 该 书 不 但 己 售 空 ， 而 且 需 要 重新 预 
订 ， 等 竺 第 二 次 印刷 。 如 果 能 够 做 到 数据 发 现 数据 ， 一 旦 该 书 开 始 销 
售 ， 该 数据 检查 点 就 会 发 现 该 用 户 的 最 初 请 求 ， 目 动 给 用 户 发 送 邮件 ， 
告诉 他 该 书 已 经 开始 销售 了 。 

加 强 儿 童 安 全 


























有 位 妈妈 想 要 确保 她 的 小 孩 在 步行 去 学 校 的 路 上 是 安全 的 。 这 位 妈 
妈 可 能 会 搜索 该 社区 的 Web 站 点 ， 确 保 没 有 登记 的 犯罪 分 子 大 住 在 孩子 
去 上 学 的 路 上 经 过 的 小 区 。 为 了 确定 在 孩子 上 学 途中 的 街道 上 是 售 增 加 
了 一 条 新 的 犯罪 分 子 地 址 ， 妈 妈 会 每 天 都 去 上 网 检查 一 下 Web 站 上 扣 吗 ? 
如 果 使 用 “数据 发 现 数 据 ”* 模 式 ， 在 孩子 上 学 路 上 一 旦 有 新 犯罪 分 子 在 菜 
个 小 区 登记 住址 ， 这 种 新 的 数据 会 目 动 链接 到 先前 的 查询 。 这 位 妈妈 束 
可 以 立即 知晓 相关 的 发 现 。 

越过 “划分 ”， 进 行 探索 

有 些 部 门 使 用 “划分 ”， 故 意 把 数据 隔离 起 来 。 隅 离 数据 有 助 于 防止 
高 度 敏 感 的 数据 意外 泄露 出 去 。 尽 管 新 的 政策 授权 对 信息 共享 ， 但 是 对 
高 度 分 类 的 数据 的 传统 保护 措施 ， 阻 但 了 部 门 发 现 两 个 “划分 ?正在 处 理 
相同 的 主题 或 者 在 主题 上 有 交叉 。 其 中 一 个 例子 可 能 是 东 个 机 关 正 在 执 
行 反 灵 ， 而 另 一 个 正在 做 反 毒 工作 。 部 门 有 数 百 个 “划分 ”， 而 一 个 人 要 
在 另 一 个 “划分 ?定位 相关 数据 是 很 不 现实 的 ， 因 为 他 永远 都 不 知道 其 他 
人 会 有 什么 信息 。 如 果 数 据 发 现 数据 ， 当 有 一 条 记录 加 入 到 反 毒 部 门 的 
数据 库 中 时 ， 如 果 该 记录 和 反 翁 部 门 相关 《如 涉及 同一 个 人 的 数据 》， 
系统 就 会 立即 发 送 通 知 给 相关 人 士 。 
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这 是 一 个 真实 的 故事 ， 坏 人 发 现 了 好 人 的 数据 一 一 导致 一 个 意外 的 
发 现 并 产生 令 人 惊喜 的 结果 。 

在 20 世 纪 90 年 代 中 期 ， 美 国 很 多 新 的 行政 管辖 区 承认 了 河 船 赌博 
(rverboat gaming) 是 合法 的 ， 路 易 斯 安 那 州 束 是 其 中 之 一 。 一 个 新 的 游 
戏 管 辖区 所 面临 的 挑战 之 一 是 缺少 一 批 有 丰富 游戏 经 验 的 当地 雇员 候选 
人 。 因 此 ， 新 的 管辖 区 必须 培养 一 批 有 广泛 的 专业 工作 类 别 的 当地 劳 
工 ， 岗 位 包括 从 交易 员 到 监察 室 业 务 员 。 路 易 斯 安 那 州 的 Bossier 市 就 是 
这 样 的 一 个 社区 ， 它 需要 从 无 赌场 业务 过 渡 到 赌场 河 船 业务 。 

今天 和 任何 其 他 赌场 的 任何 其 他 日 子 没有 什么 区 别 。 交 易 员 正在 监 
视 着 赌场 的 玩家 。 该 楼 层 的 主管 正在 监视 着 交易 员 和 玩家 。 赌 场 经 理 正 
在 监视 着 楼 层 主管 、 交 易 员 和 玩家 。 而 监察 室 正 在 监视 着 每 个 人 一 一 其 
至 是 该 赌场 的 执行 官 。 监 察 室 有 责任 监视 游戏 的 交易 情况 ， 不 仅仅 是 为 
了 保护 赌场 ， 而 且 也 是 为 了 保护 客户 。 监 察 室 同时 聚焦 于 游戏 的 交易 以 
及 捕获 其 他 犯罪 行为 的 证 据 。 例 如 ， 抢 钱包 的 凶 徒 属于 违法 行为 ， 因 为 
他 干扰 了 用 户 体验 。 

监察 是 最 后 一 道 防线 。 

在 一 间 非 常 小 的 监察 室 里 ， 安 装着 数 百 部 摄像 机 (在 拉 斯 维 加 斯 的 
大 型 赌场 有 数 和 干部) 。 一 面 墙 上 可 能 安装 着 20、30 甚 至 40 部 的 监视 器 ， 
看 起 来 像 是 在 做 犯罪 现场 调查 (Cime Scene Investigation,CSD。 因 此 ， 就 


























这 么 儿 个 操作 员 审 碍 进入 房间 的 权限 ， 怎 么 可 能 有 意义 呢 ? 答案 就 是 : 
绊 网 上 暗 线 ) 和 周密 的 浏览 。 

ee ee MS 条 建议 到 一 个 楼 层 
的 主管 要 求 监察 室 评价 一 个 客户 的 打牌 行为 ， 例 如 ， 确 定 她 是 否 在 对 时 
牌 计数 站。 这 一 天 ， 监 察 业 务 员 在 随意 查看 一 一 即 执行 所 谓 的 随机 审查 
一 一 从 一 个 表 到 另 一 个 表 ， 简 单 看 一 下 ， 检 查 是 个 有 不 正 闻 的 ， 然 后 继 
续 查 看 下 一 个 表 。 

等 一 等 ! 那 是 什么 ? 简直 不 可 能 ! 悉心 观察 的 监察 业务 员 刚 刚 观察 
到 一 个 玩家 公然 在 轮 盘 赌 桌 (rulette table) 上 作弊 。 今 天 所 发 现 的 这 个 骗 

局 称 为 “逾期 投注 (pst posting) 一 一 某 个 玩家 在 轮 盘 已 经 停止 深 动 ， 集 留 
到 某 个 数字 后 才 下 赌注 。“ 逾 期 投注 ”发 生 在 当 玩 家 注意 到 深 球 已 经 停止 
到 茶 个 数字 《如 32) ， 发 现 这 个 结果 后 ， 号 上 押 注 一 个 逾期 的 、 必 启 的 
赌注 。“ 傅 期 投注 ”和 时 牌 计数 不 同 ， 后 者 是 合法 的 但 是 不 玛 励 ， 而 前 者 
实际 上 古 舞 次 ， 而 且 绝 对 是 不 合法 的 。 

今天 很 特别 的 原因 是 那 张 架子 只 有 一 个 交易 员 和 一 个 玩家 。 通 
T$. “逾期 投注 ? 舞 浆 方式 一 般 会 涉及 很 多 玩家 一 这 些 玩 家 一 起 努力 阻 
止 交 易 员 监 察 到 逾期 投注 的 故 生 。 这 种 团体 活动 可 能 会 涉及 同一 张 果子 
的 两 个 或 者 更 多 的 “玩家 ?”， 他 们 看 起 来 似乎 完全 不 相关 《比如 ， 表 现 得 
彼此 都 不 认识 对 方 ) 。 等 到 通 子 滚 到 某 个 数字 不 动 了 ， 一 个 玩家 《如 一 
个 看 起 来 性 情 很 好 的 妇 人 ) 会 沿 着 整个 果子 假装 要 下 赌注 。 交 易 员 当然 
会 说 :“ 女 士 ， 您 下 的 赌注 太 晚 了 。*” 但 是 ， 她 的 这 个 下 注 对 必 输 的 号 已 
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EAT) 对 必 赢 的 号 下 了 一 个 迟到 的 赌注 一 一 而 且 避 免 了 被 交易 员 所 发 
现 。 

安保 人 员 得 到 通知 ， 警 卫 小 组 也 调动 起 来 。 该 玩家 遭受 逮捕 和 拘 
留 。 怎 么 会 发 生 这 样 的 事 呢 ? 交易 员 显 然 很 尴 座 。 在 新 的 行政 管辖 中 ， 
这 名 雇员 还 是 一 名 游戏 新 手 ， 而 且 确 实 只 受到 过 课 党 培训。 交易 员 清楚 
地 表示 ， 对 于 这 种 类 型 的 诈骗 ， 她 只 是 听 说 过 和 而已。 然后， 她 说 安全 报 
警 今天 确实 做 得 很 不 错 。 她 非常 尴 挫 ， 而 且 很 快 保证 ， 在 她 以 后 的 监察 
期 间 ， 再 也 不 会 发 生 这 样 的 事 了 。 

输入 “数据 发 现 数据 ”。 

当 骗 子 被 逮捕 时 ， 他 必须 证 明 自 己 的 身份 。 今 天 的 骗子 和 任意 某 天 
没有 什么 区 别 ， 介 绍 了 他 的 名 字 、 地 址 、 电 话 号 码 ， 以 及 一 些 其 他 信 
息 。 这 种 信息 收集 是 通过 一 个 标准 的 表单 ， 包 含 一 个 签名 (如 果 他 们 能 
得 到 ) ， 然 后 ， 数 据 进入 企业 安全 逮捕 处 理 系统 。 

当然 ， 这 个 骗子 和 交易 员 的 姓氏 不 同 ， 否 则 事情 就 会 变 得 非常 简 
单 。 当 然 ， 该 骗子 的 地 址 和 这 位 交易 员 的 地 址 也 不 一 样 。 但 是 ， 他 的 电 
话 号 码 恰巧 就 是 该 交易 员 求 职 应 聘 时 用 的 电话 号 码 。 正 在 这 个 时 刻 ， 隶 
捕 信 息 发 送 给 逮捕 处 理 系统 ， 该 系统 是 实现 数据 发 现 数据 的 次 级 系统 
PI， 它 找 到 这 个 至 关 重 要 的 发 现 ， 并 生成 一 条 即时 报警 信息 : “57645 
员工 和 44-00321 写 说 逮捕 人 有 相同 的 电话 号 码 ! ” 

长 话 短 说 ， 交 易 员 受 到 对 质 、 开 始 招供 ， 于 是 该 交易 员 和 骗子 一 起 






































被 区 给 执法 机 关 接 受 起 诉 。 

需要 明确 说 明 的 是 ， 用 户 并 没有 收集 之 前 作弊 诈 驴 者 的 号 份 属性 
《如 名 字 、 地 址 和 电话 号 码 ) ， 并 尝试 搜索 大 范围 的 业务 系统 〈 称 为 联 
合 搜 索 ) 。 求 职 者 、 员 工 、 会 员 俱乐部 和 逮捕 处 理 系 统 等 ， 这 些 系统 其 
至 不 能 通过 地 址 或 电话 写 码 来 搜索 一 一 它们 不 是 为 搜索 而 设计 的 。 

在 “数据 发 现 数据 ?的 环境 中 ， 用 户 不 需要 主动 搜索 或 者 提出 相关 的 
问题 。 安 全 部 门 的 用 户 在 系统 中 输入 他 们 学 会 的 东西 ， 然 后 通过 其 他 企 
业 信 息 资 产 来 评估 这 种 新 的 信息 。 发 现 新 的 信息 需要 和 已 有 的 数据 相 
天， 而 且 这 种 关系 满足 预定 义 的 兴趣 条 件 : 有 个 “坏人 ”和 某 个 员工 相 
天 。 因 为 坏人 和 该 员工 共享 一 个 电话 号 码 〈 所 以 这 个 坏人 认识 这 个 员 
工 ) ， 这 样 就 满足 该 兴趣 条 件 ， 并 触发 一 条 报警 信息 。 如 果 发 现 这 个 骗 
子 逮捕 相关 的 数据 和 三 年 前 某 个 宾馆 的 一 个 顾客 相关 ， 这 种 不 满足 兴趣 
条 件 的 发 现 不 会 生成 报警 。 

为 了 说 清楚 这 个 观点 ， 我 们 现在 假定 这 个 “逾期 投注 ?者 提供 的 电话 
号 码 和 这 位 交易 员 的 电话 号 码 没有 任何 关系 。 在 这 种 情况 下 ， 就 不 会 生 
成 任何 报警 信息 。 交 易 员 可 能 会 受到 某 些 质疑 ， 但 是 显然 没有 足够 的 理 
由 来 起 诉 她 。 可 能 公司 的 安全 部 门 会 调查 这 个 交易 员 ， 或 者 雇佣 一 个 私 
人 侦探 来 调查 这 两 个 人 是 否 是 朋友 ? 谁 知 道 呢 ? 

但 是 ， 如 果 他 们 真 的 有 关系 呢 ? 要 是 电话 写 码 不 匹配 ， 系 统 认为 他 
们 没有 关系 ， 那 么 发 生 什么 事 呢 ?交易 员 继 续 从 事 交 易 ， 时 间 继 续 推 
移 。 如 果 六 个 月 以 后 ， 交 易 员 在 她 的 人 事 系 统 中 更 改 了 她 的 家 庭 住 址 ， 





























而 且 她 的 新 信息 和 那个 骗子 的 地 址 完全 相符 ， 企 业 组 织 如 何 能 够 知道 这 
FER? 实际 上 ， 没 有 一 个 企业 组 织 会 发 现 这 一 点 ， 除 非 它 能 够 做 

到 “数据 发 现 数据 *。 一 旦 新 的 信息 能 够 和 之 前 已 经 结束 的 案件 关联 起 
来 ， 该 系统 束 可 以 检测 到 报警 条 件 : 坏人 和 茶 个 员工 相关 。 

顺便 说 一 下 ， 报 警 并 不 意味 着 真 的 有 犯罪 活动 。 但 报警 确实 为 企业 
组 织 集中 有 限 的 调查 资源 发 挥 了 重大 作用 一 一 在 这 种 情况 下 ， 基 于 足够 
的 信息 条 件 ， 给 更 相关 的 可 能 事件 报警 。 

其 他 例子 是 : 在 这 个 轮渡 赌场 行业 ， 还 发 现 和 一 个 市 场 营 销 人 员 相 
关 的 骗局 ， 这 个 营销 人 员 提 出 了 一 个 系统 攻击 、 人 返还 现金 比赛 的 想法 ， 
《在 营销 活动 中 ， 你 玩 得 越 多 ， 就 会 获得 越 多 的 积分 ， 而 且 这 些 积分 可 
以 兑换 现金 ) ， 而 结果 是 那些 现金 都 是 返回 给 他 的 室友 。 而 在 另 一 个 案 
例 中 ， 杂 个 人 举办 “一 天 一 辆 车 ”活动 抽奖 ， 系 统 友 现 中 奖 的 人 “碰巧 ”是 
他 的 妹妹 〈 只 是 姓氏 不 同 ) 抽 中 了 该 车 ， 这 两 个 家 庭 成 员 在 现场 时 演 得 
好 像 彼此 从 来 都 不 认识 对 方 。 

通过 “数据 发 现 数据 ”的 策略 ， 以 上 三 个 骗局 最 后 都 真相 暴露 一 一 所 
有 这 三 个 骗局 部 是 在 90 天 之 内 残 被 但 出 个 水 落石 出 ! 

数据 发 现 数 据 非 党 重要 的 原因 是 因为 信息 到 达 的 时 间 顺 序 是 不 确定 
的 。 想 当然 地 认为 事件 是 有 序 的 系统 和 处 理 方案 有 一 个 致命 的 缺陷 : 无 
序 的 事件 可 能 会 提供 企业 组 织 足 够 的 信息 ， 但 从 来 都 没有 基于 这 些 信息 
真正 采取 措施 。 这 一 点 在 后 面 会 谈 及 更 多 。 

个 在 美国 有 几 千 个 连锁 店 的 大 零售 商 分 机 了 它 的 历史 数据 ， 很 震 
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店 。 虽 然 数据 表 现 方式 不 同 ， 一 旦 企业 有 了 这 些 证 据 ， 就 一 分 钟 都 不 能 
耽搁 。 该 连锁 店 需 要 立刻 意识 到 这 一 点 。 

解决 无 序 的 数据 点 的 传统 解决 方法 十 分 公 琐 。 企 业 安 全 部 门 应 该 如 
何 利用 新 的 数据 ， 使 这 些 数据 能 够 揭露 一 个 员工 可 能 曾经 就 是 偷 禄 者 ? 
何 时 在 人 力 资源 系统 中 更 新 一 条 员工 记录 会 导致 企业 安全 部 门 重 新 评 佑 
它 之 前 所 有 的 调查 呢 ? 这 种 重新 评估 该 如 何 结构 化 ， 这 样 当 在 内 部 调 碍 
数据 库 中 ， 有 新 的 或 者 更 新 的 记录 和 员工 相关 时 ， 企 业 才 不 会 错过 这 些 
HORT 一 种 策略 是 周期 性 地 测试 调查 的 数据 库 和 整个 员工 数据 库 。 男 一 
种 朱 略 是 企业 安全 部 门 定期 重新 调查 每 个 员工 。 但 是 这 两 种 集 略 部 会 错 
过 一 些 重要 的 发 现 ， 因 为 定时 (时 间 )〉 是 至 关 重 要 的 。 

即使 是 完美 的 算法 ， 当 它 在 基于 完全 重新 设计 的 业务 系统 上 运行 时 
(如 入 力 资源 系统 和 内 部 调查 系统 ) ， 它 依然 会 错过 一 些 可 发 现 的 事 
件 。 如 果 为 了 确定 两 个 人 是 同一 个 人 或 者 相关 所 需要 的 数据 存在 于 一 个 
完全 不 相关 的 系统 中 ， 那 么 又 会 发 生 什么 事 呢 ?” 举 个 例子 ， 想 象 从 一 个 
不 相关 的 系统 中 得 到 了 第 三 条 记录 ， 比 如 会 员 俱 乐 部 登记 系统 ， 它 反映 
了 家 性 地 址 和 家 性 电话 写 码 之 间 先 前 未 知 的 链接 。 什 么 样 的 企业 系统 会 
用 于 检测 这 种 被 我 们 称 之 为 “ 非 显 闭关 系 ”(nnobvious relationship) 的 条 
HET 

数据 发 现 数据 ， 包 括 非 显著 关系 条 件 ， 要 求人 们 首先 解决 “企业 的 可 






































发 现 性 ?问题 。 

[1 值得 注意 的 是 ， 赌 场 监 督 的 作用 是 提供 情报 。 他 们 报告 自己 的 观 
察 和 发 现 ,， 但 是 没有 执行 力 ; 执行 力 是 安全 部 门 所 发 挥 的 作用 。 

轨 这 种 被 称 为 “无 明显 的 关系 意识 ”(Nn-Obvious Relationship 
Awareness,NORA) 技 术 ， 由 Systems | Research & Development， 即 SRD 公 司 
(由 Jeff Jonas 成 立 ) 为 拉 斯 维 加 斯 的 游戏 行业 开发 。SRD 公 司 从 那 以 后 
被 [BM 收购 ， 现 在 是 [BM 的 实体 分 析 部 门 的 一 部 分 。 这 里 有 一 些 额 外 的 
信息 一 一 IEEE 论 文 : Threat & Fraud Intelligence-Las Vegas 


Style(http: //jeffjonas.typepad.com/jeff_jonas/2006/11/ieee_paper_thre.html 


企业 的 可 发 现 性 


当 企业 中 有 新 的 信息 到 达 时 ， 不 论 是 来 了 一 个 新 员工 、 员 工 的 菏 条 
记录 更 新 、 旭 伤 者 信息 或 者 是 会 员 俱 乐 部 登记 ， 人 们 需要 记 住 其 他 什么 
组 织 数据 和 这 个 信息 相关 。 

企业 发 现 的 一 个 币 见 办 法 是 采用 “联合 搜索 ?技术 ， 把 得 询 传递 给 每 
个 相关 的 业务 系统 。 正 如 我 们 所 证 明 的 ， 这 种 方式 对 于 数据 发 现 数据 系 
统 并 不 适用 。 可 发 现 性 ， 尤 其 是 在 大 规模 、 实 时 的 环境 中 ， 目 录 是 必需 
的 。 

联合 搜索 不 是 万 能 的 

企业 组 织 有 众多 的 业务 系统 ， 每 个 系统 都 有 上 自己 专用 的 业务 功能 、 
定制 的 信息 结构 、 分 析 和 报告 。 二 级 数据 聚合 是 很 常见 的 ， 而 且 包 含 如 
数据 仓库 、 业 务 数 据 存 储 和 数据 集 市 。 数 据 聚 合 存 在 无 数 的 信息 抓 岛 ， 
每 个 孤岛 都 和 特定 的 任务 或 功能 相关 。 

传统 的 联合 搜索 系统 涉及 用 户 查 询 每 个 孤岛 的 数据 库 ， 获 取 相 关内 
容 。 更 复 林 的 联合 搜索 系统 使 用 乔 能 中 间 件 ， 为 数据 库 的 每 个 查询 做 代 
理 ， 智 能 中 间 件 是 一 个 模型 ， 在 该 模型 中 ， 中 间 件 通过 自动 结合 各 种 信 
恩 来 处 理 查 询 ， 并 对 查询 的 结果 进行 编制 ， 人 返回 集成 的 结果 集 给 查询 
者 。 

在 需要 信息 的 时 候 ， 联 合 搜索 “即时 ?收集 路 孤岛 的 数据 。 虽 然 这 种 
类 型 的 联合 搜索 在 一 些 场景 下 是 可 用 的 ， 但 是 无 法 很 好 地 运 合 于 高 性 能 



































的 企业 可 发 现 性 ， 后 者 需要 根据 数据 发 现 数据 来 生成 。 

有 两 种 主要 的 原因 使 得 联合 搜索 无 法 扩展 : 

现 有 的 系统 通常 不 包含 高 效 定位 一 条 记录 所 需 的 必要 的 索引 。 如 文 
付 系统 通常 会 包 : 仿 预先 构建 的 索引 对 数据 定义 指针 〉 ， 从 而 有 助 于 
在 员工 号 码 、 纳 税 有 DD 号 码 和 名 字 进 行 查 询 。 文 付 系 统 很 少 会 包含 届 效 的 
方式 来 定位 地 址 或 者 电话 号 码 上 的 记录 。 假 设 新 发 现 的 赌博 诈骗 者 暴露 
了 他 的 地 址 和 电话 号 码 。 我 们 的 文 付 系统 保留 所 有 员工 的 电话 号 码 和 地 
址 记录 (毕竟 它 需 要 发 送 支 票 ) 。 但 是 该 支付 系统 无 法 简单 地 生成 《如 
果 它 可 以 员工 的 列表 ， 这 些 员 工 和 之 前 提 到 的 赌博 诈骗 有 相同 的 地 址 
或 电话 号 码 。 即 使 在 文 付 系统 中 为 员工 的 电话 号 码 中 创建 了 一 条 索引 ， 
但 是 它 仍 然 无 法 使 人 们 在 相同 的 系统 中 定位 紧急 联系 电话 号 码 。 如 有 果 我 
们 无 法 对 赌博 诈骗 者 的 验证 信息 和 所 有 相关 的 员工 数据 进行 比较 ， 我 们 
还 是 错过 了 发 现 员工 和 诈骗 者 之 间 的 联系 。 

如 有 果 录 个 字段 不 在 索引 中 ， 在 数据 库 中 定位 一 条 记录 的 方法 称 为 “ 表 
扫描 ”。 在 表 扫 描 过 程 中 ， 对 搜索 的 值 和 表 中 每 条 记录 的 值 进行 比较 
一 一 从 数据 库 中 的 第 一 条 记录 开始 比较 ， 到 第 二 条 ， 等 等 。 因 此 ， 数 据 
库 越 大 ， 每 次 搜索 花费 的 时 间 越 长 ， 因 而 主 服 务 顺 系统 上 的 计算 压力 就 
越 大 。 

更 糟糕 的 是 ， 联 合 搜索 需要 递归 处 理 〈 东 些 情况 下 需要 重复 一 些 步 
DR) ， 这 对 于 分 : 布 式 碍 询 环境 简直 是 一 场 疆 梦 。 假 设 你 执行 一 条 联合 
碍 询 ， 是 为 了 及 现 和 茶 个 特定 的 人 相关 的 企业 记录 一 一 也 就 是 说 ， 根 据 















































菏 个 特定 的 人 的 名 字 和 出 生日 期 开始 查询 。 如 果 联 合 碍 询 返 回 这 个 人 的 
一 些 新 的 属性 ， 如 一 些 地 址 和 电话 号 码 ， 那 么 你 就 了 解 了 一 些 新 的 东 
西 。 为 了 更 全 面 地 了 解 ， 需 要 最 大 化 利用 所 了 解 到 的 天 于 这 个 人 的 新 数 
据 ， 也 就 是 说 ， 初 始 化 另 一 个 企业 范围 的 联合 查询 ， 防 止 基于 这 些 新 的 
数据 点 ， 定 位 额外 的 数据 。 因 此 ， 如 果 第 二 次 的 联合 查询 发 现 了 另 一 个 
地 址 ， 拼 写 名 字 的 多 种 方式 ， 以 及 一 两 个 别名 ， 那 么 又 会 发 生 什么 情况 
呢 ? 更 具体 全 面 地 说 ， 每 次 了 解 一 些 能 够 发 现 先前 丢失 的 记录 的 知识 ， 
发 现 过 程 必须 执行 力 一 个 企业 范围 的 联合 查询 。 

下 面 这 个 真实 的 案例 强调 了 这 一 点 。 某 个 企业 组 织 〈 一 个 商业 实 
体 ， 不 是 政府 ) 有 2000 多 个 数据 库 。 用 户 查 询 被 定向 到 这 些 数 据 库 中 来 
收集 相关 的 记录 。 为 优化 搜索 过 程 而 设计 的 优秀 的 中 间 件 产品 需要 人 花 很 
多 年 的 时 间 ， 以 及 几 百 万 美元 的 成 本 。 这 种 智能 的 系统 会 识别 哪个 数据 
库 应 该 处 理 哪个 查询 ， 确 定 合理 的 数据 库 访 问 方 式 ， 把 碍 询 同 时 传播 给 
所 有 相关 的 集合 ， 并 汇集 了 解 到 的 知识 。 但 是 ， 这 种 联合 搜索 方式 永远 
都 无 法 殉 服 一 个 严重 的 设计 缺陷 : 每 次 发 现 了 解 一 些 知识 《如 一 个 别名 
或 者 一 个 新 的 电话 号 码 ) ， 优 秀 的 中 间 件 必须 重新 把 这 些 碍 询 发 给 很 多 
数据 库 。 这 种 递归 过 程 运行 在 大 规模 的 计算 机 集群 中 ， 最 终 需 要 定制 为 
每 8 分 钟 停止 处 理 。 注 意 下 一 次 的 递归 查询 可 能 最 终 会 发 现 一 条 重要 记 
录 。 

但 是 ， 需 要 8 分 钟 ! 这 意味 着 用 户 或 者 系统 只 能 等 着 ， 无 法 执行 任何 
操作 ， 因 为 在 这 段 期 间 内 无 法 获取 到 任何 答案 。 然 而 ， 在 数据 发 现 数据 
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数据 之 前 会 有 最 多 高 达 8 分 钟 的 延迟 。 想 象 一 下 ， 在 整个 企业 网 络 ， 每 
秒 提 区 成 日 上 千 的 联合 得 询 的 规模 下 ， 通 过 无 数 的 业务 系统 递归 执行 ， 
使 用 联合 碍 询 这 种 方式 是 多 么 得 不 切实 际 ! 

如 果 以 上 提 到 的 因素 还 不 具有 足够 的 吸引 力 ， 联 合 搜索 的 致命 一 击 
是 所 有 必须 搜索 的 系统 在 物理 上 必须 是 可 访问 的 ， 而 不 是 处 于 维护 或 者 
备份 状态 ， 或 者 处 在 周期 性 的 半夜 或 者 月 末 的 批 处 理 过 程 中 。 当 然 ， 连 
接 性 也 必须 是 完全 可 运作 的 。 考 虑 这 些 需 求 以 及 由 成 百 上 干 的 涉及 建 
筑 、 时 区 和 大 陆 的 系统 组 成 的 组 织 。 联 合 搜索 无 法 文 持 “ 数 据 发 现 数 
据 ” 的 任务 ， 因 为 它 无 法 大 规模 地 基于 企业 的 发 现 力 来 发 布 数据 。 
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录 ， 在 主题 、 标 题 和 作者 上 执行 交叉 索引 来 帮助 查找 相关 的 文档 。 目 
录 、 索 引 和 分 类 目录 基本 上 指 的 是 相同 的 东西 : 都 是 用 于 定位 其 他 东 
西 。 

定位 器 的 例子 包括 图 书馆 的 卡片 目录 、 电 话 号 码 目录 和 eBay 等 。 对 
于 每 种 定位 器 ， 目 录 相 当 于 定位 器 服务 : 当 对 它们 提供 一 个 或 者 多 个 碍 
询 项 时 ， 这 些 定位 器 会 返回 引用 信息 《指针 ) 。 在 图 书馆 ， 卡 卢 分 类 目 
录 是 为 了 促进 高 效 的 企业 搜索 的 一 个 特定 目录 ， 它 为 用 户 提 供 指 向 文档 
的 特定 的 指针 如; 使 用 Dewey 十 进 制 系统 ) 。 当 提供 给 用 户 一 个 指针 
后 ， 就 变 成 < 联合 搜索 ”。 注 意 〈《 有 用 的 ) 联合 搜索 和 《无 用 的 ) 联合 搜 
索 之 间 的 区 别 。 

G 公 司 的 搜索 也 不 是 扫描 整个 地 球 来 获取 搜索 结果 ; 相反 ， 它 是 搜 
索 G 公 司 创建 的 一 个 特定 目录 ， 然 后 把 搜索 结果 指 疝 真正 文档 的 指针 返 
回 给 查询 者 。 

企业 范围 的 可 发 现 性 的 唯一 可 扩展 解决 方案 是 使 用 目录 。 这 并 不 奇 
怪 。 因 此 ， 一 个 特定 的 目录 是 最 根本 的 部 分 ， 它 允许 “数据 发 现 数据 ? 系 
统 有 规模 地 处 理 可 发 现 性 和 实时 地 确定 相关 性 。 






































不 是 所 有 的 目录 都 是 等 同 的 。 传 统 的 < 上 下 文 无 关 ” 的 目录 和 人 能够 累 
计 并 持久 的 上 下 文 的 目录 之 间 存 在 很 大 的 区 别 。 上 下 文 相关 的 目录 使 得 
数据 发 现 数据 可 以 通过 非常 令 人 意外 (不 显著 ) 的 、 实 时 、 大 量 的 方 
式 ， 而 且 效 率 非常 高 效 。 

上 下 文 无 关 的 目录 是 最 常见 的 目录 类 型 : 每 个 文档 的 索引 和 所 有 其 
他 文档 不 相关 。 换 句 话说 ， 新 的 企业 交易 (文档) 更 新 目录 ， 并 不 关心 
该 交易 《索引 的 元 数据 ) 和 其 他 交易 之 间 的 关系 。 上 下 文 无 天 的 目录 是 
为 了 给 用 户 提供 最 基本 的 定位 文档 的 能 力 而 设计 的 〈 如 所 有 和 “Bily the 
Kid” 相 关 的 书 )》。 

语义 上 一 致 中 的 目录 是 那些 试 着 利用 同义词 的 目录 ， 使 用 不 同 的 单 
词 来 表示 相同 的 东西 。 这 意味 着 用 户 想 要 寻找 一 个 东西 (如 “Billy the 
Kid") 应 该 能 够 找到 其 他 “相同 ”的 东西 (如 “William Antrim”， 他 的 一 个 
别名 ) 。 当 一 个 新 报告 的 实体 引用 了 之 前 观察 到 的 实体 ， 语 义 一 致 的 目 
录 能 够 做 出 识别 。 包 含 语 义 一 致 的 数据 的 目录 可 以 看 成 是 图 书馆 的 一 个 
卡片 文件 ， 这 有 一 个 很 大 区 别 : 和 类 似 的 实体 相关 的 卡片 被 胶合 在 一 
起 。 这 意味 着 如 果 一 个 搜索 定位 到 了 一 张 卡片 ,“ 作 为 奖励 ”， 它 不 需要 
付出 额外 的 努力 就 可 以 发 现 所 有 其 他 相关 的 卡片 。 最 显著 的 是 ， 在 这 些 
胶合 在 一 起 的 图 书馆 卡片 中 ， 有 些 甚至 不 包含 被 搜索 时 的 原始 数据 项 。 

坦白 地 说 ， 这 一 切 看 起 来 很 神奇 。 当 试 着 去 发 现 该 企业 对 于 某 个 
Email 地 址 的 了 解 程 度 时 ， 碍 询 者 会 发 现 和 该 Email 地 址 相关 的 记录 以 及 
关于 这 个 人 在 企业 中 的 其 他 记录 一 一 举 个 例子 ， 某 个 会 员 俱 乐 部 ， 虽 然 









































实际 上 它 的 记录 中 从 来 都 没有 包含 Email 地 址 。 语 义 上 协调 身份 的 算法 
(如 人 们 或 者 组 织 ) 有 时 被 认为 是 身份 识别 号 。 确 定 多 个 实体 什么 时 候 
是 相同 的 实体 的 算法 需要 非常 深入 细致 的 讨论 ， 因 而 超出 了 本 章 讨论 的 
vu. 

语义 一 致 旦 “有 关系 意识 (rlationship-aware) 的 目录 是 提供 了 更 高 程度 
的 上 下 文 的 一 种 目录 类 型 ， 它 通过 允许 用 户 发 现 额外 文档 ， 如 那些 和 私 
人 相关 的 关联 (如 Billy theKid 就 是 William Antrim)。 可 能 知道 实际 上 确 
SH William Antrim 可 能 也 是 很 重要 的 ， 而 且 这 个 人 碰巧 是 Billy the Kid 
的 继父 。 对 这 些 达到 可 视 化 的 方式 是 在 脑海 里 画 一 张 图 书馆 卡片 目录 ， 
其 中 一 些 卡 片 如 前 所 述 ， 已 经 通过 胶带 系 在 一 起 ， 还 有 一 些 线条 连接 到 
一 些 卡 所 捆绑 (bndle) 到 其 他 卡片 以 及 其 他 卡片 捆绑 。 人 们 可 以 搜索 任意 
术语 的 某 个 集合 ， 并 定位 一 个 卡 卢 捆绑 ， 并 且 在 那 时 弄 清楚 该 捆绑 是 如 
何 和 其 他 捆绑 关联 相关) 的 。 有 些 关 联 的 线条 比 其 他 线条 粗 ， 这 表明 
它们 关联 关系 更 强 。 通 过 一 条 线 找到 另 一 个 卡片 捆绑 ， 人 们 可 以 马上 看 
到 是 什么 线条 连接 到 下 一 个 捆绑 。 通 过 这 种 方式 ， 人 们 可 以 观察 到 这 些 
卡片 捆绑 分 离 的 程度 ， 如 Kevin Bacon 所 提出 的 六 度 分 割 理论 。 

当 思 考 “ 数 据 发 现 数据 ?系统 时 ， 必 须 记 住 当 有 新 的 交易 发 生 时 ， 可 
能 是 把 当前 已 经 存在 的 实体 增加 到 上 下 文中 ， 那 么 就 有 可 能 会 发 生 由 于 
捆绑 和 线条 的 重新 组 织 ， 新 的 信息 改变 了 图 片 的 大 小 。 

持久 性 上 下 文 (Prsistent contexb) 是 个 术语 ， 用 于 表示 一 致 的 “有关 
系 意 识 ” 的 当前 状态 。 从 本 质 上 讲 ， 它 指 的 是 不 断 变 化 和 越 来 越 复杂 的 

















当前 状态 。 持 久 性 上 下 文 是 保存 了 事物 间 相 关 性 ， 优 于 在 联合 搜索 系统 
中 用 到 的 “即时 ?性 上 下 文 (Jst-in-time context). 

持久 性 上 下 文 (语义 上 一 致 且 “有 关系 意识 ”的 路 径 〉 能够 促使 高 性 
能 的 发 现 、 流 语 境 化 以 及 实时 检测 相关 性 。 同 样 值得 注意 的 是 ， 如 果 相 
关 性 检测 可 以 在 获取 数据 时 发 生 ， 其 计算 代价 是 最 低 的 。 从 这 方面 来 
看 ， 图 书 管 理 员 《负责 把 新 数据 补 到 目录 中 ) 是 第 一 个 发 现 新 到 来 的 数 
据 和 待 发 布 的 数据 是 否 有 足够 的 相关 性 。 

意识 的 溪流 胜 过 沸腾 的 海洋 。 想 象 这 一 点 的 一 种 清晰 的 方式 是 想象 
一 个 企业 组 织 有 4 exabytes (1 exabytes=216 字 节 ) 的 历史 数据 ， 每 分 钟 
接收 5TB 的 数据 。 你 觉得 他 们 是 在 周末 启动 一 个 进程 ， 用 来 发 现 发 生 的 
事 吗 ?在 整个 地 球 上 ， 可 能 没有 足够 的 计算 机 或 者 能 源 来 做 这 件 事 。 
注意 : 规模 上 设想 的 行为 在 设计 非常 高 效 的 系统 时 ， 被 证 明 是 非常 有 
效 的 。) 

国定 义 为 “ 当 两 个 东西 描述 上 虽然 不 同 ， 但 实质 相同 ， 能 够 做 出 识 
别 ”。 

不 要 把 身份 识别 和 类 似 的 有 时 被 称 为 匹配 /归并 或 归并 /清洗 的 一 


组 方法 混 消 。 更 多 关于 它们 之 间 的 区 别 ， 可 参考 文章 “Entity Resolution 

















Systems vs.Match Merge/Merge Purge/List De-duplication 
Systems” (htp: //jeffjonas.typepad.com/jeff_jonas/2007/09/entity- 


resoluti.html). 


相关 性 : 什么 是 重要 的 以 及 对 谁 重 要 


现在 ， 有 大 量 的 数据 涌 向 我 们 。 论 点 儿 时 间 来 评估 在 你 周围 环境 的 
所 有 视野 和 声音 : 背景 是 计算 机 的 喻 喻 声 ， 首 乐 的 播放 ， 电 视 上 的 漫画 
以 及 孩子 们 想 要 偷 禄 彼此 的 玩具 。 人 类 本 号 有 目 己 内 部 的 相关 性 检测 算 
法 ， 可 以 评估 所 有 展现 的 数据 ， 并 且 当 茶 些 观察 使 我 们 注意 并 且 可 能 做 
出 茶 种 反应 时 ， 会 提醒 我 们 。 束 如 忽略 小 孩 们 以 及 他 们 的 吵架 ， 直 到 该 
吵架 上 升 到 暴力 威胁 。 正 是 茶 个 小 孩 的 一 个 动作 ， 提 醒 我 们 是 时 候 开 始 
出 面 调解 。 

人 们 如 何 使 用 技术 来 计算 相关 性 ， 以 及 什么 时 候 允 许 它 自 动 注册 一 
个 报警 是 至 关 重 要 的 。 在 技术 方面 ， 目 标 是 一 种 状态 ， 在 该 状态 中 ， 报 
警 队 列 中 的 下 一 项 是 审查 时 最 重要 的 下 一 个 项 目 。 没 有 理由 产生 的 报警 
比 现 有 的 可 用 于 应 付 它 们 的 资源 还 多 。 例 如 ， 风 险 评 估 引 擎 生成 的 报警 
数 必须 被 配置 为 和 茶 个 人 的 个 人 风险 、 编 制 和 反应 能 力 相 适应 。 如 果 资 
源 增加 了 ， 人 们 可 以 提高 报警 的 灵敏 度 。 




















各 个 组 件 及 特殊 考虑 


智能 的 “数据 发 现 数据 ”的 环境 必须 包含 8 个 最 基础 的 组 成 部 分 : 
观察 的 存在 和 可 用 性 ; 

能 够 从 观察 中 提取 特征 并 对 特征 进行 分 类 ; 

能 够 有 效 地 发 现 相关 的 历史 背景 ; 
f 





能 够 通知 相应 实体 的 洞察 力 。 

观察 的 存在 和 可 用 性 

如 果 没 有 数据 ， 人 们 就 不 可 能 会 理解 观察 ;而 如 果 有 数据 ， 为 了 使 
这 些 数据 某 天 有 潜在 的 利用 价值 ， 那 它 就 必须 通过 一 些 传 感 系统 来 " 感 
应 ”( 收 集 ) 。 而 且 即 使 数据 被 收集 ， 人 们 为 了 还 有 一 线 希 望 能 够 理解 
它 ， 必 须 能 够 访问 它 。 

能 够 从 观察 中 提取 特征 并 对 特征 进行 分 类 

为 了 避免 不 必要 的 争论 ， 我 们 说 一 粒 沙 子 包含 的 用 于 抽取 和 分 类 的 
特征 太 少 。 沙 粒 往往 具有 相同 的 颜色 、 大 小 、 重 量 、 形 状 等 。 因 此 ， 缺 
少 可 区 别 的 特征 后 期 将 会 妨碍 人 们 识别 相同 的 数据 GEXO o HE 
点 是 ， 为 了 把 数据 放 到 语 境 中 ， 人 们 必须 能 够 抽取 和 分 类 它 的 关键 特 











征 。 当 地 址 信息 包含 在 一 个 列 中 ， 而 姓名 在 另 一 个 列 中 时 ， 结 构 化 数据 
征 非 常 容易 的 。 无 结构 化 的 数据 ， 如 新 闻 报 纸 和 博客 ， 人 花费 的 时 间 更 
多 ;提取 正确 的 名 字 和 地 址 是 非常 具有 挑战 性 的 ， 它 通 稼 被 称 为 实体 提 
取 。 从 视频 中 提取 特征 ， 如 为 汽车 拍照 的 读者 ， 可 以 在 茶 些 情况 下 进 
行 。 

长 话 短 说 ， 人 们 如 果 想 要 把 观察 结合 到 上 下 文中 ， 必 须 能 够 对 观察 
的 主要 特征 进行 提取 和 特征 分 类 。 

能 够 有 效 地 发 现 相关 的 历史 背景 

随 独 新 的 观察 到 达 ， 抽 取 和 分 类 的 关键 特征 被 用 于 查询 上 下 文 相关 
的 历史 数据 〈 我 们 称 之 为 持久 性 上 下 文 ) ， 用 来 发 现 这 些 数据 是 否 适 
合 。 为 了 能 够 实时 发 生 ， 文 持 大 体积 的 数据 流 ， 这 种 发 现 需求 必须 是 极 
度 快 速 的 。 

能 够 对 新 的 观 凤 做 出 判断 (相同 或 相关 ) 

当 有 新 的 观察 根据 历史 数据 语 境 化 (cntextualized) 时 ， 该 算法 必须 能 
够 做 出 以 下 断言 之 一 : D 新 的 实体 ， 是 其 类 型 的 首 例如 一 个 新 
人 ) ; D 已 知 的 实体 〈 如 是 我 们 已 知 的 关于 某 人 的 观察 ) ， 在 这 种 情 
况 下 新 的 实体 通过 已 有 实体 “分 解 "; 30 该 实体 (新 的 实体 或 者 是 已 知 
的 实体 ) 如 何 和 其 他 实体 相关 。 

因此 ， 存 在 这 样 的 观点 ， 正 如 入 们 把 拼图 玩具 拼 在 一 起 ， 其 结论 是 
没有 什么 可 以 做 的 。 正 是 这 时 ， 人 们 抛弃 了 当前 项 ， 不 管 它 曾经 在 什么 
位 置 ， 而 且 把 注意 力 转移 到 下 一 个 拼图 模块 〈 观 察 ) 。 注 意 : 可 能 你 的 

















最 后 一 次 判断 是 错误 的 ， 但 是 关于 这 一 点 ， 你 不 太 可 能 会 发 现 它 ， 除 非 
有 新 的 拼图 模块 暴露 出 了 这 个 潜在 的 错误 。 

当 新 的 观察 推翻 先前 的 判断 时 ， 能 够 做 出 识别 

有 时 一 个 观察 包 合 新 的 信息 ， 证 明之 前 的 判断 必须 完全 推翻 。 可 能 
这 种 新 的 信息 证 明之 前 认为 不 相同 的 实体 实际 上 古 相同 的 实体 。 相 反 
地 ， 一 个 新 的 观察 可 能 会 暴露 人 们 之 前 认为 相同 的 实体 ， 而 现在 坚信 它 
们 一 点 都 不 相同 〈 例 如， 新 的 数据 点 说 明了 我 们 数据 库 中 的 两 个 Bob 
Joneses 不 是 同一 个 人 ， 而 实际 上 一 个 是 大 三 的 ， 一 个 是 大 四 的 ) 。 

使 用 新 的 观察 推翻 先前 的 判断 是 语义 一 致 算法 最 复杂 的 方面 之 一 。 
但 是 如 果 没 有 这 个 关键 特征 ， 数 据 库 会 随 着 时 间 流 渤 ， 和 真实 情况 越 来 
越 不 相符 。 它 的 缺点 是 使 用 周期 性 的 数据 库 重 载 来 纠正 这 种 问题 。 而 且 
对 于 非常 大 的 数据 集 ， 很 显然 这 会 市 来 可 扩展 性 焉 梦 。 

能 够 积累 和 坚持 主张 

当 完 成 断言 过 程 一 一 换 句 话说 ， 当 新 的 观察 被 规约 为 断言 (新 的 、 
相同 的 或 者 相关 的 实体 ，， 而 且 新 的 观察 是 用 于 弥补 和 之 前 相同 的 断言 
一 一 新 学 到 的 知识 必须 放 到 数据 库 中 ， 这 样 下 一 次 交易 可 以 从 新 的 知识 
中 受益 。 在 某 些 方面 ， 这 感觉 上 很 像 最 基本 的 增 量 学 习 系 统 。 

能 够 识别 相关 性 /洞察 力 如 何 形成 

只 有 当 新 的 观察 应 用 于 历史 数据 ， 这 样 无 法 保证 更 多 的 计算 ， 该 系 
统 该 “ 拉 心 自问 ”， “我 是 否 学 会 了 一 些 真正 有 用 的 东西 ? >”， 它 和 一 个 人 
不 断 地 得 看 在 每 次 放 上 一 个 拼图 模块 时 会 有 什么 发 现 很 相似 。 




















我 们 需要 做 的 工作 包含 检测 预定 义 的 兴趣 模式 。 例 如 ， 友 现 一 个 好 
人 是否 认识 一 个 坏人 是 相关 的 ， 或 者 茶 个 人 每 天 的 现金 交易 是 人 否 超过 1 
万 美元 。 

但 是 ， 新 的 相关 性 参数 可 以 基于 外 部 过 程 来 设置 ， 它 可 能 包含 人 类 
洞察 力 或 者 次 要 的 模式 发 现 /数据 挖掘 引擎 

能 够 通知 相应 实体 的 洞察 力 

当 检 测 到 东方 面 的 洞察 ， 应 该 通知 谁 或 者 哪个 系统 ? 在 我 们 现 有 的 
实现 中 ， 这 是 小 事 ， 因 为 每 个 相关 性 规则 比如， 如 果 一 个 可 能 的 主 顾 
古 我 们 的 最 局 的 50 个 客户 的 一 位 很 亲密 的 同事 ) ， 以 及 传播 规律 (也 区 
古 说 ， 发 送 一 条 友好 信息 给 赌场 主人 ) 是 同时 建立 的 。 














隐私 考虑 





智能 系统 与 那些 可 以 执行 “数据 发 现 数据 ”的 其 他 系统 一 样 ， 要 求 非 
第 密切 地 关注 隐私 权 和 保护 公民 上 自由。 如 何 构建 和 部 署 这 些 下 一 代 系 
统 ， 以 及 如 何 使 用 管理 策略 (包括 员 任 和 监督 都 值得 人 们 密切 关注 和 
热烈 讨论 。 一 些 核心 问题 包括 : 定义 什么 样 的 数据 需要 为 可 发 现 性 构建 
索引 ， 如 何 把 这 些 数据 整合 在 一 起 〈 比 如 ， 什 么 是 关系 ?” ) ， 什 么 是 相 
关 性 ， 应 该 向 谁 揭示 什么 样 的 相关 性 ， 谁 可 以 搜索 索引 ， 系 统 如 何 对 未 
授权 使 用 进行 监视 ， 以 及 如 何 检测 错误 和 纠正 错误 。 

洱 运 的 是 ， 基 于 目录 的 模型 有 很 多 关于 加 强 隐私 保护 的 很 好 的 特 
征 ， 包 括 : 

:敦促 多 方 之 间 分 享 更 多 的 数据 被 传送 更 少 的 信息 到 更 少 的 地 方 〈 卡 
片 目录 ) 所 取代 。 

:可 以 通过 一 致 的 方式 ， 对 人 们 的 搜索 操作 以 及 找到 的 结果 以 日 志 形 
式 记录 下 来 ， 这 样 有 助 于 更 好 地 实施 责任 制 和 监督 制品 。 

:不 同方 之 间 的 信息 共享 已 经 减少 为 只 需要 分 享 他 们 需要 知道 的 东西 

过 直 分 享 必须 分 享 的 信息 使 得 分 享 变 少 了 ) 。 

:可 以 使 索引 “匿名 制 "aonymized)， 这 意味 着 无 意 的 暴露 甚至 是 那些 
索引 中 数据 量 很 小 的 元 数据 的 机 会 也 大 大 降低 站。 

上 回 防 自 改 的 日 志 记 录 通 常 也 被 称 为 不 可 变 的 审计 日 志 。Matkle 
Foundation 在 关于 国家 安全 ， 尤 其 是 非 透 明 的 政府 系统 方面 ， 发 表 了 一 






































篇 有 趣 的 论文 ， 可 以 浏览 : 

http: //www.markle.org/downloadable_assets/nstf_IAL_020906.pdf. 
由 更 多 关于 “匿名 制 ” 的 目录 ， 可 以 在 Jeff Jonas 和 John Karat 所 著 的 

«Emergent Information Technologies and Enabling Policies for Counter- 
Terrorism? (编辑 Robert L.Popp4eJohn Yen, 2006-+Wiley-IEEE Press tH 
版 ) 的 “Anonymized Semantic Directories.A Privacy-Enhancing Architecture 
for Enterprise Discovety ”一 章 中 找到 
(htp: //www.wiley.com/WileyCDA/WileyTitle/productCd- 
0471776157.html) « 


结束 语 


“数据 发 现 数据 ?系统 决定 了 新 的 观察 是 如 何 和 已 知 的 事务 相关 ， 并 
检测 出 值得 特别 注意 的 相关 性 /洞察 力 。 这 种 洞察 力 通 前 实时 友和 生 ， 因 


此 能 够 做 出 实时 反映 。 
一 新 兴 的 技术 将 最 终 把 一 个 组 织 和 其 他 组 织 通过 一 系列 的 企业 利 


益 区 别 开 ， 包 括 更 好 的 识别 机 遇 到 风险 估计 。 
数据 发 现 数据 很 可 能 会 成 为 下 一 个 里 程 碑 ， 下 一 代 的 高 级 分 析 机 制 
。 这 种 新 的 模式 将 不 可 避免 地 带 来 更 智能 的 系统 的 兴起 ， 其 
至 可 能 还 会 推动 “ 认 知 计算 (cgnitive computing) 的 发 展 。 





Hoe ”实时 的 可 移动 数据 


JudValeski 


长 期 以 来 ， 应 用 数据 一 直 被 “ 禁 铅 *"。 最 初 ， 这 些 数据 被 局 限 在 世界 
各 地 “孤立 ”运行 的 系统 中 。CAT-5 以 太 网 络 、IP、 路 由 器 、DNS 和 
Sockets 诞 生 之 后 ， 机 器 之 间 开 始 能 够 互相 连接 。 机 器 间 的 互通 使 得 数据 
可 以 在 应 用 程序 之 间 自 由 传输 ， 最 终 这 些 数据 也 变 得 更 加 有 意思 。 数 据 
超出 了 其 原始 的 应 用 程序 范围 ， 开 始 进 入 各 种 各 样 的 新 场景 之 中 。 一 夜 
之 间 ， 随 着 互联 网 的 兴起 ， 客 户 端 -服务 器 计算 得 到 了 迅速 发 展 ， 那 
些 “ 孤 立 ” 的 计算 机 突然 之 间 互 相连 接 在 了 一 起 。 以 HTTP 做 为 通信 媒介 
和 文本 作为 语言 ， 数 据 “ 流 动 * 了 起 来 。 

在 过 去 大 约 15 年 里 ， 主 要 的 数据 流 可 分 为 两 类 : 色情 和 普通 的 消费 
商务 〈 包 括 通过 代理 的 广告 ) ， 二 者 都 很 好 地 遵从 20 世 纪 90 年 代 初 期 兴 
起 的 传统 的 由 “Web 浏 览 器 ”以 及 相应 的 服务 器 所 构成 的 数据 传送 模型 。 
最 近 ， 第 三 类 数据 一 一 社交 数据 开始 兴起 。 人 们 开始 把 自己 的 社交 移 到 
网 络 上 ， 这 创造 了 新 的 数据 类 型 ， 以 及 新 的 不 完全 遵循 基于 浏览 器 模式 
的 访问 需求 。 社 交 数 据 就 在 这 里 ， 而 且 对 它 的 需求 正当 其 时 。2009 年 1 
月 14 日 的 PEW 报 告 《Adults and Social Network Websites》 指 出 ，18 一 34 
岁 的 在 线 成 年 人 ，50% 以 上 有 自己 的 社交 网 络 个 人 信息 站。 

在 本 章 中 ， 我 将 讨论 这 一 演变 过 程 以 及 消费 趋势 信息 即 社交 数据 的 
内 在 问题 的 当前 解决 方案 。 虽 然 我 们 已 经 经 历 了 跨越 式 发 展 ， 但 这 过 程 
中 丢失 了 一 些 基 本 的 编程 原则 : 事件 驱动 的 体系 结构 和 数据 结构 的 可 预 

















JUPE. E, SHI TA LA ERT Se ER Bü. rg EPR 7 (Occam's 
razonD) 理 论 也 表明 这 些 解 决 方法 通常 很 简单 。 真 正 通过 180 角 度 HITTP 转 
换 并 采用 POST 方法 , “实时 ?可 以 正式 成 为 社交 数据 词汇 的 一 部 分 。 作 
为 中 介 ，Gnip 人 http: /www.gnip.com) 在 异 构 社交 数据 和 消费 应 用 之 间架 
起 了 便捷 的 桥梁 。 

[llhttp: //www.pewinternet.org/Reports/2009/ Adults-and-Social- 


Network-Websites.aspx 
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当前 的 社交 数据 被 “扭曲 ”来 适应 那些 与 最 终 用 户 所 喜欢 的 行为 需求 
并 不 完全 匹配 的 传输 和 展现 方式 。 当 一 个 平台 是 经 过 很 长 时 间 逐 步 建立 
起 来 时 ， 往 往 会 发 生 这 种 情况 ， 人 们 发 现 新 的 方式 来 利用 平台 ， 即 使 有 
时 必须 为 此 做 出 某 些 牺牲 。 详 细 说 明 当 前 框架 的 主要 方面 是 描述 这 
种 “扭曲 "了 的 杠杆 作用 的 最 佳 方式 。 

传输 

有 很 多 方法 可 以 把 两 个 Socket 连 接 起 来 ， 并 在 它们 之 中 移动 数据 。 
但 是 ， 在 可 预见 的 将 来 ， 只 存在 一 个 可 能 : HITP 协 议 。 总 存在 特定 的 
情况 ， 可 以 使 用 更 高 效 的 协议 来 优化 该 特定 情况 下 的 数据 传输 ， 但 是 
HTTP 协 议 仍然 是 无 处 不 在 的 ， 虽 然 它 比 任何 其 他 东西 给 地 球 和 卫星 的 
防火 墙 带 来 的 漏洞 都 多 。 因 此 ， 这 就 是 HITP 协 议 。 如 果 有 什么 事 不 能 
通过 HTTP 协 议 来 完成 ， 那 这 件 事 就 需要 重新 考虑 一 个 了。 为 了 说 明 这 
一 点 ， 我 们 有 具体 看 一 下 消费 电子 设备 的 情况 。 这 些 产 品 很 多 都 很 酷 ， 但 
是 只 有 那些 很 棒 的 设备 才 包 含 HTTP 客 户 端 (如 iPhone 或 者 一 些 基于 
Android 的 设备 ) 。 真 正 令 人 惊叹 的 设备 甚至 包含 了 HTTP 服 务 器 (Nkia 的 
S60 上 可 以 运行 HITP 服 务 器 ) 。 正 如 任何 完善 的 规则 都 有 例外 ，HTTP 
协议 也 不 例外 。 它 是 无 状态 、 重 量 级 的 ， 当 你 需要 以 快速 、 有 状态 形式 
完成 一 些 任务 时 ， 这 两 个 特征 可 能 会 成 为 障碍 。 以 下 协议 是 这 些 例外 的 
例子 。 

















可 扩展 消息 处 理 现场 协议 (XPP) 

AOL 的 即时 通信 产品 是 该 领域 在 实时 社会 通信 产品 上 的 首次 亮相 ， 
并 且 发 展 异 常 迅猛 。 人 们 想 “ 聊 天 ”。 不 久 ， 人 们 就 想 通过 P2P 进 行 聊 
天 ， 或 者 通过 其 他 服务 ，XMPP 就 这 样 诞生 了 。 开 始 的 时 候 ， 作 为 一 个 
标准 的 传输 框架 和 用 于 描述 社会 交互 、 展 现 数据 的 标准 格式 ，XMPP 被 
拼凑 成 了 一 种 通用 的 消息 框架 ， 使 用 范围 广泛 ， 包 括 从 IM 到 通用 消息 
工具 PubSub。 在 2008 年 中 期 ，Cisco 收 购 了 Jabber.com(XMPP 安 装 疝 业 化 
的 领袖 ) ， 网 络 路 由 器 也 将 很 快 装配 很 小 的 、 烧 制 了 专用 的 XMPP 处 理 
程序 的 硅 心 片 ， 供 全 世界 使 用 。 

BitTorrent 

当 你 的 用 例 是 高 度 定制 时 ， 最 好 能 够 把 数据 处 理 流程 调 成 “最 优 ”。 
砍 掉 这 些 琐碎 的 东西 和 多 余 的 载荷 ， 使 得 任意 的 客户 端 和 服务 器 之 间 的 
数据 传输 通信 只 适用 于 客户 端 和 服务 器 紧密 耦合 并 且 协 作 良 好 的 情况 。 
BitTorrent 在 分 布 式 的 一 组 节点 上 来 回 移动 大 量 的 二 进 制 数据 块 的 速度 
是 异常 惊人 的 ， 这 是 对 高 度 定 制 的 用 例 进行 优化 的 一 个 很 好 的 例子 。 

私有 权 /P2P 

HTTP 协 议 的 一 大 不 足 是 每 个 有 效 的 请 求 /响应 对 包含 了 与 之 前 相同 
的 数据 头 集合 ， 即 使 这 对 操作 可 能 是 某 个 特定 的 客户 端 和 服务 器 的 第 n 
对 的 交互 操作 。 如 果 能 够 在 初始 阶段 管理 好 这 些 交 互 ， 使 得 数据 通道 除 
了 位 操作 之 外 其 他 什么 都 不 做 ， 那 岂 不 是 更 智能 ?确实 如 此 。 这 个 原因 
以 及 很 多 其 他 原因 ， 驱 动 着 “点 到 点 *(Pint-2-Point 或 Peer-2-Peer) 协 议 的 很 























多 实现 ， 这 些 实现 每 天 传输 着 大 量 的 数据 。 

选择 HTTP 协 议 作 为 传输 方式 ， 这 将 带 来 一 个 问题 ， 它 对 应 的 格式 是 
HA? 当然， 如 果 一 个 传输 协议 在 过 去 几 年 中 已 经 变 得 无 处 不 在 ， 这 个 
过 程 中 基于 其 传输 的 数据 也 必然 已 经 被 “净化 ”了 。 

格式 

XML 为 进一步 实现 数据 格式 化 打下 了 基础 。 数 据 应 该 基于 哪 一 个 层 
次 格式 来 通信 的 问题 基本 上 已 经 解决 了 。 现 在 对 由 XML 衍生 出 的 数据 
格式 的 讨论 是 所 有 一 切 讨论 的 起 始 。 虽 然 现 在 有 很 多 开发 人 员 觉 得 采用 
XML 格式 是 理所当然 的 ， 但 是 值得 注意 的 是 这 种 数据 格式 非常 及 肿 。 
XML 基于 文本 的 格式 ， 在 定义 上 非常 有 描述 性 ， 因 而 它 通常 不 是 用 于 
通信 的 最 佳 格式 。 每 当 我 参与 现代 协议 和 格式 的 讨论 时 ， 我 就 想起 AOL 
专 有 的 FDO 模 型 。FDO 是 二 进 制 的 、 紧 凑 的 以 比特 存储 的 协议 /格式 结 
合 ， 为 300 波 特 的 现代 连接 进行 了 优化 。 笠 运 的 是 ， 网 络 连接 已 经 发 展 
到 今天 ， 宽 带 速 度 已 经 成 为 规范 。 

如 上 所 述 ， 正 如 HTTP 协议 一 样 ，XMEL 的 劣势 也 是 它 的 优势 。 如 果 
我 们 在 过 去 15 年 学 到 了 些 东 西 ， 那 便 是 无 处 不 在 的 可 读 的 协议 和 格式 
一 一 我 真 的 是 这 么 认为 。 一 种 格式 越 是 被 人 们 所 理解 ， 它 就 越 可 以 进 一 
步 走向 创新 之 路 。 当 调试 程序 的 唯一 方式 是 通过 解密 工具 把 数据 转换 成 
用 大 脑 可 以 理解 的 东西 时 ， 人 类 创造 性 和 通信 之 间 就 开始 存在 严重 的 障 
fS. “成 功 的 数据 ?可 以 为 程序 员 所 理解 ， 而 “失败 的 数据 ”只 能 通过 计算 
机 来 处 理 。 注 意 : 有 效 载 答 格式 和 元 数据 格式 (通常 是 XML) 之 间 存 在 





























DA. rne TRI LA COME SEY es FE) 占用 了 大 量 的 
物理 空间 ， 而 且 人 们 无 法 阅读 它 ， 我 把 这 种 数据 称 为 有 效 载 答 格式 。 描 
述 性 的 信息 ， 比 如 视频 的 元 数据 ， 是 相对 比较 紧凑 的 。 在 网 络 中 ， 通 过 
有 效 载 和 荷 格式 传输 胜 过 元 数据 传输 《〈 只 要 问 问 你 最 喜欢 的 网 络 服务 提供 
商 它 占 多 少 比 例 就 知道 了 ) ， 但 是 这 种 格式 的 数据 在 被 计算 机 解码 之 
前 ， 相 对 显得 下 板 无 趣 。 

接口 

接口 (AD 使 事情 变 得 开始 有 趣 。 一 旦 每 个 人 都 认识 到 大 量 的 HTTP 事 
务 像 传 统 的 API 调 用 一 样 在 网 络 上 无 处 不 在 ，REST 协 议 为 我 们 把 Web 作 
为 大 分 布 式 应 用 奠定 了 基础 。Roy Fielding 是 HTTP1.1 协 议 的 贡献 者 之 
一 ， 他 教会 我 们 如 何 像 表示 状态 转换 (Rpresentational State 
TransferREST) 那 样 描述 事物 的 思想 框架 。 

开发 者 终于 可 以 停止 挣扎 于 使 用 CORBA 和 DCOM 模 式 来 把 他 们 的 逻 
辑 和 数据 分 布 到 联网 的 计算 机 上 ， 转 而 借助 于 标准 的 HTTP 和 基于 文本 
的 工具 来 实现 应 用 程序 间 在 传统 的 Web 应 用 层 以 下 进行 交互 。 

这 导致 你 能 够 想到 的 几乎 所 有 Web 应 用 的 API 呈 爆炸 式 发 展 ， 如 图 8- 
1 所 示 。API 成 为 每 个 产品 经 理 必 有 的 东西 。 这 既是 件 好 事 ， 也 是 件 坏 
事 。 从 好 的 方面 来 看 ， 成 二 上 万 的 产品 公开 它们 的 数据 ， 全 世界 都 能 够 
访问 。Programmable Web(http: //www.programmableweb.com/) 记录 了 
好 几 百 个 这 样 的 产品 ， 而 且 随 时 可 以 使 用 。 从 坏 的 方面 来 看 ， 很 多 API 
很 仓促 地 开发 出 来 ， 没 有 考虑 到 它们 可 能 会 如 何 被 使 用 。 其 结果 是 由 于 




















API 调 用 程序 根据 性 能 或 者 功能 特征 ， 带 来 从 WAN 到 各 种 可 能 满足 或 可 
能 不 满足 你 的 期 望 的 不 同 终端 范围 的 API 调 用 高 淹 。 很 少 有 Web API 提 
供 服务 层 协议 (Srvice-Level Agreement,SLA)， 如 果真 的 有 这 样 的 API， 


其 状况 通常 是 很 莫 惨 的 。 
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图 8-1: 在 过 去 几 年 公用 的 API 数 量 增长 情况 ， 数 据 来 源 于 
Programmable Web 网 站 





为 了 使 菏 个 应 用 的 数据 和 功能 能 够 通过 API 获 取 ， 不 论 是 真正 的 还 是 
假想 的 需求 ， 都 可 以 在 网 络 上 创造 一 些 有 趣 的 挑战 。 

如 果 碍 看 今天 的 API 在 网 络 上 是 如 何 使 用 的 ， 那 么 你 会 用 现 它 们 看 起 
来 是 随意 传输 数据 ， 且 没有 严格 的 SLA。 在 规模 上 ， 我 们 第 一 次 有 软件 
可 以 非常 有 规律 地 和 其 他 软件 进行 集成 。 这 种 集成 方式 称 为 “混搭 服 
务 ”(mshups)， 因 为 它们 把 数据 从 各 个 服务 中 “混搭 ”在 一 起 。 越 来 越 多 的 
终端 用 户 期 望 数 据 在 他 们 的 社交 应 用 能 够 具有 实时 性 ， 但 是 支持 实时 数 





据 传输 的 基础 设施 还 远 远 不 够 丰富 。 在 实现 实时 应 用 时 ， 软 件 工 程 师 无 
限 复 杂 的 创新 性 已 经 为 应 用 提供 实时 通知 产生 了 很 多 不 同 的 模型 

《如 “Comet”、 “Web Hooks”， 以 及 各 种 “PubSub” 消 息 通 知 系统 ) 。 这 些 
模型 其 中 有 些 行 之 有 效 ， 有 些 则 没有 。 不 管 你 的 方法 是 什么 ， 解 决 方案 
在 根本 上 没有 真正 的 “魔术 ”; 相反 ， 饱 受 考验 的 框架 通常 都 是 在 “ 幕 
后 "一直 发 挥 着 作用 。 

在 应 用 软件 中 有 两 个 基本 的 时 间 流 处 理 (tme-flow-processing) 原 语 
(Pimitives): 轮 询 (Plling) 和 事件 (Eents)。 应 用 程序 根据 时 间 来 执行 ， 而 
用 户 交 互 的 应 用 程序 需要 用 户 或 者 男 一 个 服务 的 输入 。 该 输入 通过 轮 询 
或 者 事件 方式 在 应 用 中 执行 。 值 得 注意 的 是 你 可 以 通过 以 上 任意 一 种 模 
式 来 实现 ， 在 计算 机 课堂 上 应 该 讲解 到 使 用 它们 的 一 些 绝妙 技巧 ， 我 不 
在 这 里 袭 述 。 这 里 重要 的 是 定义 关于 应 用 程序 如 何 收集 它 的 相关 输入 的 
更 高 层 的 概念 。 使 用 例子 来 说 明 表达 这 两 种 模型 最 简单 。 

轮 询 

轮 询 是 通过 应 用 程序 不 断 询 问 中 断 是 否 有 变化 来 实现 的 ， 如 果 检 测 
到 变化 ， 程 序 会 执行 定义 好 的 动作 。 一 个 常用 的 类 比 是 酒吧 服务 员 。 想 
象 一 家 酒吧 ， 有 1 个 服务 员 和 10 个 顾客 。 如 果 这 个 服务 员 是 轮 询 模 式 的 
服务 员 ， 他 会 不 断 地 询问 每 个 顾客 他 们 是 否 要 喝酒 。 在 整个 酒吧 询 
问 “ 要 喝 一 杯 吗 ? "Em np? ”要 喝 一 杯 吗 ?”“ 要 喝 一 杯 吗 ? ”等 。 
不 时 地 ， 其 中 一 个 被 询问 的 顾客 会 回答 “来 一 杯 ”， 则 该 服务 员 就 先 不 询 
问 了 ， 给 顾客 倒 一 杯 酒 。 轮 询 的 方式 实现 起 来 美丽 简单 ， 但 是 通常 这 对 





























于 客户 端 和 服务 器 都 是 非常 低 效 “正如 类 比 所 示 ) 。 

X x p 

提供 API 为 开发 者 进行 访问 的 方式 来 展示 你 的 在 线 服务 ， 通 常 可 以 很 
容易 实现 ， 而 基于 应 用 程序 构建 一 些 框 染 并 把 数据 连接 起 来 就 不 是 那么 
容易 了。 但 是 ， 一 旦 把 API 开 放出 来 ， 你 束 无 法 控制 这 些 API 将 会 如 何 
被 其 他 应 用 程序 使 用 。 对 程序 的 完全 控制 已 经 保护 代码 运行 了 几 千 年 的 
时 间 。 因 此 ， 构 建 一 个 大 规模 的 “Web API” 〈 即 “Web 服 务 ”) 需要 付出 
慎重 的 考虑 、 熟 练 的 管理 和 业务 操作 。 

如 果 有 人 笠 运 地 构建 出 一 个 令 开发 者 很 感 兴趣 的 API， 因 此 其 轮 询 负 
载 将 变 得 很 大 ， 在 应 用 上 处 理 负 和 荷 增长 的 最 简单 的 方式 是 通过 IP 或 包 
头 、 通 信 层 的 访问 ， 从 而 限制 API 的 使 用 。 虽 然 这 种 处 理 方式 解决 了 伸 
缩 性 问题 ， 但 是 它 中 断 了 为 取悦 用 户 而 集成 这 个 API 的 程序 的 处 理 流 
程 。 开 发 者 不 布 望 在 他 们 的 应 用 中 构建 <“ 节 流 层 "CTrottling Layer), MA] 
只 是 希望 执行 习惯 性 的 调用 ， 使 得 系统 能 够 “工作 即 可 ”。 实 际 上 ， 在 系 
统 中 解决 数据 访问 问题 需要 花费 的 精力 比 基 于 IP 的 速率 限制 还 要 多 
CATR) ， 但 是 我 们 通常 无 法 投入 足够 的 时 间 来 调研 真正 的 解决 方 
案 。 一 些 社交 数据 的 应 用 已 经 投入 精力 来 解决 这 个 问题 ， 他 们 的 API 能 
够 承载 蜗 负 位 访问 (如 Digg)。 但 是 绝 大 多 数 应 用 还 不 具备 这 一 特 后 。 

做 正确 的 事 

然而 ， 包 含 大 量 社交 数据 的 流行 的 社交 应 用 程序 在 基础 设施 上 不 应 
该 要 求 有 庞大 的 资金 投入 ， 也 不 必 是 具有 很 强 横 问 扩展 性 的 应 用 。 这 些 



































方面 都 会 抑制 产品 的 创新 ， 耗 费 大 量 的 资金 。 相 反 地 ， 利 用 饱 经 时 间 考 
验 的 “事件 原 语 ， 简 单 地 说 是 通过 有 序 方 式 。 大 量规 则 说 明了 访问 社交 
数据 的 90% 以 上 的 调用 是 不 必要 的 。 绝 大 多 数 时 候 ， 这 些 数据 甚至 是 无 
法 访问 的 。 仍 然 以 之 前 的 酒吧 服务 员 为 例 ， 当 顾客 回答 “不 喝酒 ?时 ， 会 
由 于 被 服务 员 不 断 地 询问 相同 的 问题 而 开始 变 得 不 耐烦 。 

为 了 更 新 某 个 用 户 拍 的 照片 ， 不 断 地 询问 Flickr 是 一 种 资源 浪费 。 相 
反 地 ， 如 果 当 用 户 更 新 了 他 的 照片 ，Flickr 系 统 通 知 你 的 应 用 程序 来 调 
用 ， 这 种 处 理 方式 就 会 更 高 效 ， 对 用 户 更 重要 以 及 更 及 时 。 

每 加 仑 0 英里 的 效率 

我 将 使 用 众所周知 的 “Flickr,Friendfeed 的 例子 ”来 强调 在 获取 社交 数 
据 时 ， 使 用 轮 询 方式 的 低 效 性 。 总 体 来 说 ， 社 交 数 据 是 由 用 户 生成 的 。 
这 意味 着 依赖 于 利用 社交 数据 的 社交 应 用 是 基于 人 们 的 行为 ， 而 不 是 更 
容易 预测 和 管理 的 计算 机 的 行为 。 当 我 们 开发 的 软件 的 价值 完全 是 人 类 
活动 的 某 个 功能 时 ， 事 情 开 始 变 得 有 趣 。 这 个 例子 很 有 趣 ， 因 为 发 布 者 
(Fickr) 和 消费 者 (Fiendfeed) 都 对 用 户 的 笔记 留言 进行 比较 ， 这 能 够 对 通 
过 轮 询 方式 异步 传输 的 “外 部 调用 ”(ofbox) 的 本 质问 题 产生 有 价值 的 洞 

在 2008 年 7 月 ，Even Henshaw-Plath 和 Kellan Elliot-McCrea 在 俄勒冈 州 























波 特 兰 (Prtland) 市 组 织 的 OSCON(Open Source Convention,O'Reilly 的 开源 
集会 ) 会 议 上 发 表 了 演讲 “Beyond 
REST?"(htp: /www.slideshare.netkellan/beyond-resD。 在 该 演讲 中 ， 他 


们 透露 为 了 确定 Friendfeed 的 4.6 万 的 用 户 账号 在 最 近 24 小 时 内 是 否 上 传 
相片 ，Friendfeed 每 天 会 请 求 Flickr 的 API 290 万 次 。 而 它 的 4.6 万 的 用 
户 ， 其 中 仅仅 7000 个 用 户 在 这 期 间 内 会 访问 Flickr， 可 能 会 上 传 照 片 。 

一 条 著名 的 社交 应 用 规则 ， 称 为 “1-9-90” 规 则 ， 在 过 去 几 年 中 开始 兴 
起 。 其 要 旨 是 ， 如 果 你 考虑 社交 应 用 100% 的 用 户 基 础 ， 其 中 1% 的 用 户 
对 核心 数据 有 贡献 〈 如 “上 传 一 张 照片 >) ，9% 的 用 户 参与 贡献 数据 
(如 “把 一 张 照 片 标记 为 最 喜欢 的 >”， 而 90% 的 用 户 仅仅 浏览 这 些 数据 
《如 “视图 照片 >) 。 如 果 保 守 地 把 该 规则 应 用 于 Flickr/Friendfeed 范 例 
中 ， 则 可 以 说 明 在 某 一 天 有 7000 个 用 户 访 问 了 Flickr， 有 700 个 用 户 会 上 
传 照片 。 这 意味 着 Friendfeed 请 求 Flickr 接 口 290 万 次 ， 只 是 为 了 知道 他 
们 的 700 个 用 户 确实 做 了 某 些 更 新 。 这 种 方式 “命中 ”的 最 高 比率 是 
0.02%， 即 4000 次 请 求 发 现 1 条 更 新 。 

把 Flickr/Friendfeed 例 子 和 酒吧 服务 员 的 类 比 结合 起 来 ， 意 味 着 轮 询 
方式 的 酒吧 服务 员 为 了 使 得 顾客 需要 酒 时 可 以 实时 得 到 ， 需 要 询问 这 位 
顾客 4000 次 “要 喝 一 杯 吗 ?”， 他 才 会 回答 1 次 “来 一 杯 ”。 

一 方面 ， 应 用 程序 调用 本 地 的 “内 部 调用 ”(O-box)API 来 “吸纳 ”这 种 低 
效 性 。 另 一 方面 ， 应 用 程序 执行 Web API 调 用 的 效率 也 非常 低下 。 如 果 
你 根据 当前 所 有 的 社交 应 用 来 考虑 这 个 例子 ， 其 代价 确实 会 非常 令 人 震 


惊 。 


























事件 驱动 型 的 软件 可 以 驱动 应 用 程序 达到 实时 性 ， 而 社交 数据 在 本 
质 上 束 需 要 实时 通信 。 通 过 在 线 银行 软件 得 看 菏 张 文 票 账户 清除 了 我 的 











文 票 账户 的 操作 , “拖延 "一 两 天 才能 看 到 是 可 以 容忍 的 ; 但 是 一 个 年 轻 
人 要 看 到 他 最 好 的 朋友 在 春天 拍摄 的 照片 的 请 求 ， 需 要 被 立即 处 理 。 
事件 

事件 驱动 型 的 染 构 和 轮 询 驱 动 型 不 同 ， 它 采取 了 不 同 的 解决 方案 。 
和 酒吧 服务 员 不 断 地 询问 顾客 们 是 否 需 要 喝酒 不 同 ， 这 种 模型 的 酒吧 服 
务 员 仅仅 站 在 吧台 后 面 ， 等 竺 顾客 告诉 说 他 们 想 要 喝酒 。 虽 然 事件 处 理 
通常 更 有 效 ， 但 是 考虑 到 具体 的 “事件 ?概念 本 身 ， 它 确实 要 求 一 些 额 外 
的 代价 。 事 件 需要 被 消除 、 捕 获 ， 事件 处 理 框架 必须 存在 ， 这 导致 了 事 
件 处 理 方式 的 复杂 性 。 轮 询 方式 可 以 简单 地 通过 线性 、 过 程 化 的 循环 来 
完成 ， 而 这 种 简单 性 也 正 是 它 被 过 度 小 用 的 一 个 关键 原因 。 

从 侏 罗 纪 时 期 开始 ， 轮 询 和 事件 这 两 种 执行 流 规范 真 定 了 软件 开发 
的 基础 。 客 户 问 和 服务 器 软 件 都 依赖 这 两 种 模式 来 控制 执行 流 以 及 应 用 
的 行为 。 操 作 系统 通过 恰当 地 运用 它们 ， 提 供 流畅 的 用 户 输入 和 交互 体 
验 。 作 为 一 个 开 用 人员， 你 选择 哪 一 种 模型 通 冲 取决 于 你 所 使 用 的 开发 
语言 ， 或 者 你 正在 使 用 的 库 或 框架 的 功能 。 虽 然 这 两 者 的 性 能 特征 在 本 
地 、 内 部 API 调 用 的 应 用 中 通常 区 别 不 大 ， 但 是 当 执 行 远 程 、 外 部 API 
调用 的 操作 时 ， 其 性 能 特征 可 能 导致 应 用 程序 次 痪 。 注 章 ， 当 人 处理 用 户 
界面 和 图 形 泻 染 时 ， 本 地 性 能 的 区 别 对 于 应 用 是 至 关 重 要 的 。 

一 旦 程序 员 开 始 大 量 注入 远程 API 调 用 到 本 地 应 用 程序 ， 轮 询 和 事件 
处 理 方式 之 间 的 区 别 变 得 非常 明显 。 本 地 IO 调用 和 远程 TO 调用 之 间 的 
区 别 呈 指数 增长 。 所 有 通过 磁盘 、 内 存 和 心 片 接口 来 加 快 应 用 程序 的 工 
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考 氏 实际 的 协议 交互 作为 全 部 数据 传输 代价 的 功能 ， 延 迟 问 题 会 变 得 更 
加 严重 。 


内 存 本 地 磁盘 BEE ”内 部 网 SKM 3678 
(100 Mb/s) (3 Mb/s) (755 Kb/s) 


图 82: 文件 描述 符 在 各 种 连接 类 型 上 的 操作 的 相对 吞吐 量 

正如 你 所 看 到 的 ， 差 异 非常 明显 。 在 远程 数据 访问 次 数 远 多 于 本 地 
数据 访问 的 极 器 情况 下 ， 轮 询 和 事件 模式 在 驱动 应 用 时 所 产生 的 延迟 的 
兰 别 会 更 加 明显 。 当 你 的 软件 为 了 采取 菏 些 措施 而 需要 知道 在 网 络 中东 
个 服务 是 否 发 生变 化 时 ， 你 往往 没有 足够 的 时 间 来 执行 低 效 的 轮 询 。 如 
果酒 吧 服 务 员 问 了 4000 次 的 “要 喝 一 杯 吗 ? ”， 却 只 能 得 到 顾客 1 次 的 肯 
定 回 答 ， 当 服务 员 需 要 问 吉 城镇 里 的 所 有 顾客 时 ， 当 费 在 查询 上 的 时 间 
都 要 焊 炸 了 。 轮 询 和 事件 之 间 各 有 千秋 ， 但 是 只 有 一 种 模型 在 Web 上 吻 











于 实现 : 轮 询 。 基 于 HTTP/REST 的 客户 端 -服务 占 编 程 从 来 没有 为 Web 
应 用 开发 提供 正式 的 事件 驱动 框架 。 结 果 导 致 Web 充 满 了 低 时 效 性 的 社 
交 数 据 驱 动 的 应 用 ， 社 交 数 据 的 时 效 性 特征 让 这 一 问题 更 为 突出 。 如 果 
我 的 朋友 明天 可 能 在 城镇 ， 我 可 不 想 自己 知道 时 为 时 已 晚 。 我 们 希望 应 
用 能 够 “实时 ”就 像 构 建 在 要 倒塌 的 扑克 有 牌 堆砌 的 房子 那样 ， 而 我 们 看 到 
墙 变 得 越 来 越 高 。 

HTML 5 事件 

值得 注意 的 是 HTML5 规 范 突 出 了 事件 模型 和 在 高 层 上 文 持 双向 通信 
功能 的 “Web Socket” 框 架 。XMLHttpRequest 已 经 把 GUI Web 应 用 提升 到 
一 个 新 的 层次 ， 我 猜想 “Web Sockets” 将 对 今后 几 年 的 Web 应 用 开发 产生 
重大 影响 。 人 允许 基于 浏览 器 的 应 用 以 更 类 似 于 socket 的 方式 来 访问 数据 
必 将 禹 来 好 的 结果 。 

WAN 规 模 的 事件 

分 布 式 事件 处 理 和 通知 不 是 一 个 新 问题 ， 而 它 的 解决 方案 也 不 是 。 
事实 上 ， 企 业 空 间 已 经 生成 了 无 比 强 大 和 高 效 的 “消息 总 线 ” 的 解决 方 
膝 ， 尺 管 这 是 专利 的 。Tibco 公 司 作 为 企业 消 晨 总 线 解决 方案 的 领先 提 
供 商 而 广为人知 。 然 而 ， 企 业 消 息 总 线 的 关注 重点 在 于 它们 传输 的 数据 
的 临界 值 ， 而 非 通过 各 种 各 样 的 连接 堆栈 方 能 实现 与 多 样 化 的 终端 间 进 
行 连接 。 股 票 交 易 需 要 确保 传输 成 功 并 保护 隐私 。 要 达到 这 种 程度 需要 
付出 较 高 的 代价 ， 该 代价 转化 为 了 高 额 的 牌照 费 ， 但 Internet 上 ， 这 一 转 
化 进行 得 不 是 很 好 。 社 交 数 据 是 通过 对 终端 用 户 免 费 的 应 用 创建 和 消费 
































的 。 因 此 ， 各 企业 公司 提供 的 昂贵 的 、 私 有 的 和 难以 集成 的 消息 总 线 解 
决 方案 在 Web 上 不 受 欢 迎 。 

利用 生成 社交 数据 的 技术 来 提供 事件 驱动 通知 机 制 的 解决 方案 ， 通 
常 正 是 基于 该 系统 已 有 的 技术 。 可 以 使 用 HTTP POST 方式 来 推动 整个 
WAN 范 围 内 任意 服务 之 间 的 事件 ， 使 用 标准 格式 (XL)， 在 执行 控制 流 
过 程 中 的 延迟 可 以 被 关闭 。Jeff Lindsay 在 宣传 HTTP POST 的 事件 传输 模 
型 时 给 出 了 一 个 生动 的 比喻 ， 并 由 此 获得 了 绰号 “Web 
Hooks”(htp: //blog.webhooks.org/) 。 再 强调 一 次 ，HTTP 不 是 最 优化 的 
传输 事件 协议 ，XML 也 不 是 最 优 格 式 ， 但 是 这 二 者 提供 了 最 丰富 、 实 
用 的 机 制 来 解决 服务 器 之 间 实 时 通信 的 问题 。 

如 果 社 交 数 据 变 得 更 加 隐蔽 ， 有 可 能 发 生 以 下 两 件 事 之 一 : 一 是 我 
们 作为 消费 者 ， 将 继续 忍受 ， 而 我 们 的 行为 模式 和 期 望 将 会 更 符合 低级 
模型 ， 二 是 我 们 停止 使 用 该 产品 ， 因 为 它们 的 使 用 价值 已 经 下 降 到 不 足 
以 抵消 使 用 所 需要 忍受 的 烦恼 。 前 者 有 很 多 先例 (Bta 与 VHS)， 因 为 我 们 
通常 接受 我 们 想 要 解决 的 问题 的 非 最 佳 解决 方案 。 后 者 每 天 都 发 生 ， 因 
为 发 展 迅 猛 的 工业 和 产品 通常 由 于 时 间 和 最 后 的 优化 因素 而 崩溃 。 在 一 
个 框架 变 成 标准 之 前 ， 中 间 的 事件 网 关 可 以 通过 众多 协议 和 格式 代为 转 
发 事件 和 数据 的 方式 ， 起 到 连通 数据 发 布 者 和 阅读 者 的 桥梁 作用 。 如 果 
事件 机 制 的 实现 可 以 做 到 成 本 低 且 通用 ， 它 将 可 以 消除 社交 数据 的 破坏 
性 的 延迟 .。“Wweb 规 模 ” 的 实时 社交 数据 的 普遍 应 用 依赖 于 事件 驱动 模 
型 。 























Gnip 项 目 中 是 基于 以 下 理念 成 立 的 ， 围绕 社交 数据 消费 的 事件 驱动 
架构 是 提供 实时 访问 模式 的 唯一 方式 。 然 而 ， 由 于 轮 询 方式 还 会 存在 ， 
Gnip 仍 然 选择 轮 询 方式 作为 社交 数据 交互 的 首选 模型 。 

单一 的 API 集 成 通常 简单 明了 。 然 而 ， 当 你 要 集成 很 多 不 同 的 终端 
时 ， 便 开始 出 现 效 率 低下 的 问题 。Gnip 为 它 的 终端 数据 消费 者 实现 了 多 
API 和 集成 的 工作 ， 这 些 API 最 后 只 需要 通过 唯一 点 就 可 以 完成 集成 
Gnip. 

四 在 计算 机 网 络 中 ， 速 率 控制 常用 在 一 个 网 络 接口 上 ， 用 于 控制 发 
送 和 接收 数据 的 通信 速率 。 流 量 小 于 或 等 于 指定 速率 的 数据 会 被 发 送 ， 
而 流量 若是 超过 了 指定 速率 ， 则 被 丢弃 或 延迟 发 送 。 

2] 想 了 解 更 多 信息 ， 可 访问 其 网 站 : http: //www.gnip.com/。 
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社区 数据 规范 化 


假定 我 们 通过 HTTP POST 来 处 理 广 域 网 范围 内 的 事件 的 方式 一 一 
解决 了 数据 访问 延迟 问题 。 这 种 方式 只 是 解决 了 通用 的 
API 访 问 问题 ， 而 不 是 数据 本 里 的 多 样 化 特征 问题 。XML 提 供 了 数据 的 
结构 化 特性 ， 但 是 没有 考虑 到 通用 性 。 当 今 的 社交 数据 聚集 应 用 和 它们 
要 集成 的 各 种 类 型 的 社交 数据 的 API 都 碰 上 了 “一 次 性 理解 ”的 难题 。 理 
解 从 一 个 特定 API 获 取 到 的 数据 的 结构 需要 付出 的 代价 很 高 一 一 太 高 
了 。 虽 然 多 路 复 用 网 关 协 议 已 经 存在 了 很 长 时 间 ， 但 是 通常 对 于 加 强 来 
自 稀 玻 数据 源 的 通用 的 、 规 范 化 的 数据 ， 只 存在 严格 的 XML 转换 翻译 
器 。 遗 憾 的 是 ， 严 格 的 数据 解析 方式 很 少 能 够 正常 工作 ， 因 为 实际 上 各 
种 服务 集 创建 的 数据 是 非常 多 样 化 的 。 人 们 对 标准 、 编 码 和 转 义 序列 的 
理解 都 是 不 同 的 。 此 外 ， 创 建 XML 用 于 消费 的 软件 不 可 避免 地 存在 
bug， 这 导致 输出 格式 简陋 ， 对 其 使 用 变 得 进一步 复杂 化 。 

我 们 从 严格 的 HTML 解 析 Web 浏 览 器 中 明白 ， 遗 憾 的 是 ， 标 准 并 不 
能 使 那些 和 标准 保持 一 致 的 软件 能 够 准确 无 误 地 解析 这 些 非 完美 的 数据 
格式 。 实 际 情况 是 标准 有 不 同 的 解析 方式 ， 软 件 存在 bug， 而 且 最 强大 
的 事实 标准 是 用 户 已 经 正在 做 的 事 。 人 类 的 强大 永远 都 不 能 被 否认 。 

如 果 你 曾经 花 一 些 时 间 从 各 种 社交 数据 源 看 这 些 数据 ， 你 会 注意 到 
这 些 数据 变 得 看 起 来 都 差不多 。 虽 然 要 解释 的 通用 性 对 人 类 而 言 很 明 
确 ， 但 对 机 器 来 说 却 很 困难 ;需要 人 工 编辑 指南 给 出 从 数据 集 A 到 数据 
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集 B 的 映射 。 

从 两 种 不 同 的 “社交 标签 ”服务 考虑 以 下 两 个 XML 例 子 。 虽 然 它 们 显 
然 痢 是 XML， 但 是 其 “书签 ”的 表示 方式 差别 过 寞 ， 而 且 它 们 都 为 终 闻 用 
户 提供 相似 的 服务 。 

来 自 Delicious 网 站 : 





<item> 
<title>Fractals derived from Newton-Raphson iteration</title> 
<pubDate>Mon, 19 Jan 200920: 02: 05+0000</pubDate> 
<guid isPermaLink="false"> 
http: //delicious.com/url/7549fded443f#joe</guid> 
<link>http: //www.chiark.greenend.org.uk/~sgtatham/newton/</link 




















> 

<dc:creator>iacovibus</dc:creator> 

<comments>http: //delicious.com/url/7549fded443f</comments> 

<wfw:commentRss>http: //feeds.delicious.com/v2/rss/url/a 
</wfw:commentRss> 

<source url="http: //feeds.delicious.com/v2/rss/joe">joe's 
bookmarks</source> 

<category domain="http: //delicious.com/joe/">mathematics 
</category> 

<category domain="http: //delicious.com/joe/">newton-raphson 
</category> 

<category domain="http: //delicious.com/joe/">fractals</category 






























































«category domain-"http: //delicious.com/joe/">iteration</category 





</item> 





来 自 givealink.org 网 站 : 





<item> 

<title>Bus slams into shop houses after driver collapses behind 
wheel</title> 

<link>http: //www.thaivisa.com/forum/Bus-Slams-Shop-Coll- 
t198228.html«/link- 

<description>Bus slams into shop collapses behind wheel 
</description> 

</item> 









































当今 ， 有 成 千 上 万 的 服务 通过 API 和 Feeds 暴 露 其 用 户 生成 的 内 容 
(Uer-Generated Content,UGC)， 对 其 结构 和 内 容 进行 规范 化 ， 这 样 开 发 
人 员 可 以 期 望 通用 性 优先 级 变 得 更 高 。DiSo 项 目 是 把 整个 API 范 围 内 相 
关 成 员 引 入 该 方面 的 主要 众 化 剂 ， 用 于 “净化 ”更 多 可 使 用 的 社交 数据 参 
见 http: //diso-project.org/wiki/activity-streams. 

作为 数据 生成 者 和 数据 使 用 者 之 间 的 媒体 ，Gnip 处 于 一 个 得 天 独 厚 
的 地 位 来 把 社交 数据 的 意义 翻译 和 规范 化 到 传统 的 理解 和 结构 中 。 利 用 
整个 行业 范围 内 需要 更 易于 消费 的 社交 数据 提供 集体 输入 和 知识 ，Gnip 
作为 “漏斗 ”， 接 收 的 是 很 多 不 同 的 协议 和 格式 ， 而 输出 的 是 一 致 、 腊 构 
的 数据 ， 并 提供 了 对 数据 更 便捷 的 访问 方式 。 

数据 的 商业 价值 

关于 开源 软件 是 好 是 坏 的 争论 基本 结束 。 企 业 何 时 对 其 软件 或 者 是 
部 分 软件 进行 开源 ， 何 时 不 能 开源 ， 有 很 清晰 的 界限 。 总 体 来 说， 如 果 
你 的 软件 享有 “独一无二 ”的 知识 产权 ， 把 你 和 外 界 的 其 他 方面 分 离开 ， 
你 应 该 考虑 不 把 它 开源 。 否 则 ， 它 就 可 以 作为 开源 ， 这 样 开源 社区 可 以 
在 代码 中 涵盖 其 经 验 和 专业 知识 ， 为 全 世界 作出 贡献 。 遗 憾 的 是 ， 软 件 
开源 而 言 的 数据 相对 决策 框架 还 不 够 成 熟 。API 的 爆炸 使 得 数据 发 布 商 
音 手 不 及 ， 因 此 ， 他 们 对 数据 价值 的 理解 变 得 糊涂 得 一 文 不 值 。 

一 些 传统 的 内 容 发 布 商 已 经 强化 了 其 数据 的 价值 。 提 供 免 费 的 周刊 
来 提供 内 容 ， 包 含 广告 商 支 持 内 容 ( 评 论 〉 和 产品 (杂志) 的 生成 。 一 
些 贸易 杂志 收取 订阅 金 ， 不 加 入 广告 模式 。Internet 上 的 传统 的 媒体 /内 











容 发 布 商 主 要 采取 广告 模式 来 文 持 他 们 的 数据 《内 容 ) 的 分 布 。 然 而 ， 
通过 API 访 问 社交 数据 没有 成 熟 的 模型 。 提 供 商 是 否 需 要 为 数据 本 届 的 
访问 收费 ， 还 是 一 切 部 免费 ? 除非 你 是 一 个 “freegan”( 肥 消费 者 ) » A 
则 以 上 问题 没有 一 个 有 明确 的 答案 。 除 非 谈 及 的 数据 存在 内 在 价值 ， 
则 对 其 评价 变 得 非常 困难 和 曲折 。 如 果 你 作为 数据 使 用 者 ， 为 了 购买 微 
博客 消息 ， 是 否 应 该 花费 0.01 美 元 ? 这 个 消息 是 否 应 该 获得 许可 ， 或 者 
访问 方式 是 否 应 该 被 租用 ? 数据 项 的 价值 和 对 它 在 转换 处 理 之 间 的 区 别 
开始 变 得 很 明显 。 用 户 在 发 布 商 的 服务 上 真正 去 生成 内 容 ， 是 否 应 该 获 
得 其 中 收益 的 一 部 分 ? 从 刚 开 始 ， 谁 是 真正 的 数据 拥有 者 ? 正如 你 所 见 
的 ， 这 里 充斥 着 很 多 这 样 的 问题 ， 它 们 设 有 明显 的 答案 。 

当 出 现 了 社交 数据 ， 在 该 行业 中 ， 一 些 发 布 商会 声称 他 们 的 数据 是 
无 价 的 ， 而 另 一 些 则 认为 数据 是 免费 的 。 数 据 使 用 者 已 经 潜意识 地 相信 
绝 大 多 数 的 数据 是 免费 的 。 因 此 ， 如 果真 的 对 社交 数据 进行 标价 ， 他 们 
便 会 发 展 成 价值 链 切 实 的 一 部 分 。 

公共 的 与 私有 的 

有 些 数据 被 认为 是 公共 的 ， 而 其 他 数据 则 被 认为 是 私有 的 。 公 共和 
私有 这 二 者 之 间 的 区 别 是 通过 提供 数据 的 服务 来 定义 的 ， 而 且 通 常 是 通 
过 给 定 服务 的 《服务 条 球 》 来 概括 的 。 虽 然 对 这 二 者 的 社会 理解 及 其 本 
刁 是 很 有 意思 的 话题 ， 但 是 我 在 这 部 分 将 考虑 访问 这 二 者 的 技术 上 的 一 
些 隐 式 问题 。 


让 我 们 从 两 个 当中 更 简单 的 公共 数据 说 起 。 访 问 公 共 数 据 相 对 来 说 
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比较 简单 。 今 天 绝 大 多 数 的 数据 API 是 通过 未 授权 的 REST 接 口 来 访问 
的 。 这 意味 着 在 网 络 上 它们 和 其 他 的 URL 并 没有 什么 区 别 ， 它 们 可 以 很 
容易 被 任意 用 户 和 应 用 程序 利用 。 访 问 这 些 API 终 端 需要 很 少 的 身份 验 
证 形式 ， 如 果 有 的 话 ， 而 且 对 API 用 户 的 授权 通常 是 通过 不 透明 的 方式 
在 幕后 实现 处 理 的 。 两 种 更 丰富 的 验证 方式 是 使 用 HTTP Basic-Auth 和 
在 入 在 URL 中 的 “API 关 键 字 ”。 这 两 种 方式 都 允许 API 服 务 基 于 号 份 验 证 
证 书 来 控制 对 数据 和 API 功 能 的 访问 。 令 人 惊讶 的 是 ， 这 两 种 方式 和 HT 
TP 都 能 工作 很 好 。 不 考虑 对 公共 数据 的 API 访 问 是 否 需 要 任何 身份 验 
证 ， 底 层 的 社交 数据 在 绝 大 多 数 情 况 下 仍然 是 “公共 的 ”。 

私有 数据 带 来 了 很 多 麻烦 。 由 于 越 来 越 多 的 应 用 开始 利用 通常 被 认 
为 “私有 ”的 其 他 应 用 的 数据 ， 这 需要 控制 终端 用 户 的 访问 。 数 据 提供 商 
还 使 用 各 种 技术 ， 在 访问 权限 控制 中 登 加 上 自己 的 观点 意见 。 这 些 技术 
都 使 得 私有 数据 的 聚集 访问 方式 变 得 异常 复杂 。 

保证 终端 用 户 数据 在 存储 角度 是 受到 保护 的 ， 这 仅仅 是 挑战 的 一 部 
分 。 存 储 元 余 和 加 密 技 术 人 允许 应 用 “和 略 勃 发 展 ”， 通 党 不 需要 考虑 用 户 数 
据 的 丢失 和 折 中 方案 。 实 际 上 ， 用 户 对 应 用 程序 很 放心 ， 为 了 允许 更 深 
层 的 API 集 成 ， 他 们 免费 提交 用 户 名 和 密码 到 第 三 方 应 用 程序 。 这 种 做 
法 实际 上 非常 不 安全 ， 但 是 它 说 明了 用 户 为 了 获得 他 们 期 望 的 功能 ， 甘 
愿 牺牲 其 隐私 信息 。 有 两 种 有 效 可 选 的 方案 用 于 分 享 私 人 登录 证 书 : 
OAuth 和 Blind URL. 

OAuth(http: //oauth. net/) 提供 了 简单 的 解决 方案 来 允许 各 种 服务 之 









































间 进 行 交互 ， 所 有 这 些 交 互 都 给 终端 用 户 在 他 们 的 信息 上 提供 了 最 终 的 
权限 控制 权 ， 而 不 需要 和 第 三 方 透露 他 们 的 用 户 名 和 密码 。 交 互 程序 把 
用 户 交 给 其 期 望 的 集成 点 ， 询 问 用 户 是 否 允 许 集成 服务 所 请 求 的 访问 权 
限 控制 。 如 果 终 端 用 户 赞成 该 交互 ， 两 个 服务 之 间 就 共享 一 个 令 牌 
(Tken)， 而 且 用 户 也 可 以 选择 撤销 服务 的 访问 权限 许可 。 

Blind URL 是 在 服务 和 用 户 之 间 共 享 信息 的 更 简单 的 方式 ， 但 是 它们 
在 技术 上 还 不 够 “安全 ””， 因 此 它们 通常 都 没有 什么 可 信和 度 。Flickr 
的 “Guest Pass” 共 享 功能 能 够 巧妙 地 利用 盲目 的 URL 来 允许 用 户 和 那些 
没有 Flickr 账 号 的 用 户 分 享 “ 私 有 ”的 照片 ， 因 此 ， 这 些 用 户 不 属于 Flickr 
用 户 的 “朋友 ?或 者 “家 族 ”。Blind URL 为 了 使 用 服务 来 获取 URL 的 使 用 
许可 ， 它 不 需要 用 户 做 出 任何 额外 的 工作 ， 但 是 它们 从 技术 上 能 够 猜测 
出 来 ， 这 会 带 来 私有 信息 泄露 的 隐患 。 

Gnip 当 前 只 处 理 公共 的 数据 。 对 于 公共 的 和 私有 的 边界 访问 控制 必 
须 提供 给 终端 用 户 ， 而 且 当 讨论 中 间 基 础 设施 时 ， 它 并 非 总 是 很 清晰 
的 。 例 如 ， 你 不 知道 也 不 关心 公司 采用 什么 样 的 通信 路 由 服务 信用 卡 来 
保证 金融 交易 ， 而 对 于 谁 能 够 访问 你 的 假期 照片 的 访问 权限 的 控制 却 是 
至 关 重 要 的 。Gnip 正 在 努力 在 公共 数据 和 私有 数据 之 间 画 线 ， 以 及 它 最 
终 如 何 为 私有 数据 提供 如 公有 数据 一 样 的 服务 支持 。 





























结束 语 : 通过 Gnip 思 考 


每 天 “ 测 涌 ”的 数据 “浪潮 ”把 更 多 的 异 构 API“ 拍 上 海岸 ?， 而 在 这 些 
API 中 ， 必 须 保证 数据 的 一 致 性 。 作 为 面向 消息 的 中 间 件 服务 ，Gnip 公 
司 承诺 使 用 中 间 数 据 代 理 的 方式 来 “传送 Web 数 据 ”。 这 意味 着 该 数据 发 
布 商 期 望 通过 很 多 内 部 的 传输 协议 来 分 享 这 些 数 据 ，Gnip 从 发 布 商 获取 
规范 化 的 数据 ， 并 实时 地 传送 给 Gnip 用 户 〈 从 消息 接收 到 重播 时 间 延 迟 
低 于 60 秒 ) 。 不 考虑 内 部 的 数据 格式 不 一 致 ，Gnip 把 数据 “清洗 ?并 “ 规 
范 化 ?成 标准 的 格式 作为 服务 提供 给 Gnip 用 户 。 其 结果 是 只 使 用 Gnip 的 
单 点 集成 ， 就 可 以 为 其 他 应 用 提供 一 致 的 、 格 式 化 的 数据 。 

你 可 以 通过 Gnip 一 个 接口 来 访问 很 多 的 社交 数据 API， 且 都 是 “ 实 
时 ”地 。Gnip 的 框架 主要 采用 之 前 所 述 的 事件 模型 ， 为 了 促进 网 络 和 应 
用 之 间 总 体 上 更 高 效 的 数据 流 。 然 而 ， 它 也 文 持 轮 询 方式 。 把 基于 轮 询 
的 应 用 切换 到 基于 事件 的 模式 来 最 大 化 利用 Gnip 提 供 的 规范 化 的 数据 的 
优点 ， 而 通过 手工 处 理 将 很 麻烦 。 如 果 不 是 同步 ， 那 么 完全 采取 尚 待 完 
善 的 发 布 /订阅 框架 和 格式 一 致 性 标准 ， 采 取 中 间 代 理 是 很 有 必要 的 。 

当前 的 基础 设施 在 推进 事情 进展 方面 已 经 做 了 很 多 工作 ， 而 且 网 上 

贸易 已 经 蓬勃 发 展 。 然 而 ， 不 断 改变 用 例 和 终端 用 户 需 求 使 得 和 当前 框 
架 保持 一 致 会 使 我 们 受到 一 些 局 限 。 实 时 社交 数据 的 需求 要 求 在 构建 我 
们 的 应 用 的 底层 控制 流 上 做 出 修改 。 我 很 期 望 看 到 基于 事件 的 架构 可 以 
扩展 到 整个 web。 
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第 9 和 章 ”探寻 Deep Web 


Alon Halevy 和 Jayant Madhaven 


什么 是 Deep Web 


“Deep Web”( 深 网 ) 指 的 是 隐藏 在 HIML 表 单 后 的 web 内容。 为 了 
获取 这 些 内 容 ， 用 户 必须 提交 包含 有 效 值 的 表单 。 例 如 图 9-1 的 商店 定 
位 表单 ， 搜 索 邮 编 为 94043 的 商店 ， 可 以 得 到 一 个 包含 了 商店 列表 的 
Web 页 面 。 该 结果 页 面 即 为 Deep Web 的 Web 页 面 的 一 个 例子 。 














图 9-1: Borders 商 店 定位 表单 和 提交 特定 表单 得 到 的 Deep Web 结 果 页 
(JUL E421) 
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LETT, MGA MER, xkceweb/fe HAAN He T Web vi TREITT ER HE 
接 来 发 现 新 的 web 内容。 它们 缺乏 目 动 提交 表单 的 能 力 ， 因 此 在 表单 后 
的 Web 页 面 无 法 被 搜索 引擎 索引 。 包 含 表 单 的 页 面 通常 对 表单 后 的 页 面 
内 容 包含 很 少 ; 因此 ， 对 于 普通 的 用 户 ， 只 有 当 他 们 已 经 知道 相应 的 
HTML 表 单 或 者 搜索 引擎 以 菜 种 方式 将 他 们 引导 至 该 表单 ， 这 些 用 户 才 

发 现 这 些 Deep Web 内 容 。 事 实 上 ，Deep Web (也 称 “ 不 可 见 网 











?&"(Ivisible Web) 或 者 “上 暗 网 *(Hdden Web)) 的 名 字 正 是 基于 以 下 观察 
Web 用 户 无 法 通过 搜索 引擎 简单 地 访问 这 些 内 容 。 

很 多 文章 认为 Deep Web 拥 有 的 数据 比 现在 可 搜索 的 WWW 要 多 得 多 
(Brgman 2001, He 2007, Raghavan 2001) 。 我 们 最 近 的 研究 (Mdhavan 
2007) 估计 ， 存 在 几 和 干 万 包含 潜在 有 用 的 deep-web 内 容 的 HTML 表 单 ， 
而 且 Deep Web 涵 六 的 范围 跨越 了 每 个 可 以 想象 的 领域 。 这 些 流行 的 领 
域 包括 二 手 车 销售 、 房 地 产 清 单 、 公 寓 租 赁 、 求 职 、 产 品 和 食品 食谱 。 
有 很 多 表单 可 以 访问 政府 或 者 公共 部 门 信息 ， 比 如 法 律 法 规 、 法 院 裁 
决 、 环 境 报告 等 。 还 有 些 表 单 可 以 让 用 户 搜索 更 加 深层 的 内 容 ， 如 绿 戎 
树 、 去 公园 的 打车 费 、 马 雕像 等 。 

当 考 虑 Deep Web 时 ， 我 们 必须 记 住 HTML 表 单 适 用 于 Web 中 的 各 种 
任务 ， 但 不 是 所 有 表单 都 可 以 访问 deep-web 内 容 。 例 如 ， 要 求 输入 用 户 
名 和 密码 的 登录 表单 、 提 交 用 户 输入 到 论坛 和 博客 的 反馈 表单 、 执 行 购 
买 的 购物 车 等 ， 这 些 表 单 需 要 获取 用 户 的 私有 信息 或 者 导致 后 台 状 态 改 
变 ， 因 此 不 属于 Deep Web 的 一 部 分 。 相 反 ， 我 们 主要 考虑 那些 允许 用 
户 匿 名 搜索 信息 的 表单 。 

由 于 deep-web 内 容 的 本 质 特征 和 数量 规模 ， 很 自然 地 ， 搜 索引 擎 会 
希望 在 它们 的 Web 索 引 中 包含 这 些 内 容 。 这 样 ， 搜 索引 擎 才 可 以 向 用 户 
展现 这 些 新 的 内 容 ， 反 之 亦 然 。 因 此 ， 无 论 在 学 术 领 域 还 是 工业 领域 ， 
人 们 对 如 何 提供 访问 deep-web 内 容 的 问题 都 很 感 兴趣 。 但 是 ， 很 大 一 部 
分 的 研究 和 技术 将 重点 放 在 了 如 何在 某 些 狭 罕 的 领域 来 解决 这 个 问题 。 









































这 种 做 法 最 显著 代表 是 垂直 搜索 引擎 ， 每 个 都 是 专注 村 某 个 狭 罕 领 域 的 
内 容 。 例 如 ， 二 手 车 搜索 和 求职 搜索 网 站 允许 用 户 从 单一 门户 网 站 搜索 
很 多 底层 的 站 点 。 这 种 策略 虽然 可 以 访问 一 部 分 Deep Web 内 容 ， 但 是 
其 可 达 的 范围 非常 有 限 ， 并 且 名 上 略 了 大 量 不 适合 于 这 些 狭 义 领域 的 基于 
表单 的 网 站 。 

我 们 的 目标 是 为 通用 搜索 引擎 用 尸 提供 Deep Web 访 问 方式 。 从 搜索 
引擎 的 角度 ， 我 们 希望 包含 很 大 规模 的 Deep Web 内 容 ， 即 能 够 访问 尽 
可 能 多 的 上 千 万 的 HIML 表 单 。 因 此 ， 我 们 需要 一 个 解决 方案 可 以 在 所 
有 可 能 的 语言 和 领域 工作 ， 而 且 不 需要 人 工 监 督 ， 即 一 个 完全 自动 化 的 
打上 略 。 从 deep-web 站 点 主机 (hst) 角 上 度 考 虑 ， 该 策略 不 应 该 过 展 使 用 站 点 
答 主 的 资源 ， 换 句 话 说 ， 该 策略 只 应 该 驱动 那些 真正 相关 的 用 户 流量 到 
该 网 站 。 

在 这 一 章 ， 我 们 将 概述 一 个 满足 上 述 标 准 的 解决 方案 。 该 方 采 名 称 
是 探寻 (srfacing)， 对 于 每 个 HTML 表 单 ， 预 计算 一 组 查询 ， 这 组 查询 可 
能 能 够 从 深层 站 点 中 返回 有 用 的 内 容 。 从 每 个 预计 算 的 得 询 中 汇集 
URL， 再 把 这 些 URL 插 入 到 搜索 引擎 的 宗 引 。 从 高 层 上 看 ， 我 们 的 方法 
RR SPAS PR: 一 是 在 同一 个 表单 提交 得 询 时 ， 决 定 需要 填写 哪些 表 
单 输入 框 ， 二 是 找到 合适 的 值 来 填写 这 些 输入 框 。 在 核心 上 ， 该 方法 依 
赖 于 通过 智能 选择 的 样本 但 询 来 探测 HTML 表 单 ， 然 后 分 析 检 索 到 的 
Web 页 面 的 区 别 。 该 集 略 虽然 简单 优雅 ， 却 是 非 第 高 效 的 ， 而 且 可 以 有 
效 地 为 Web 搜 索 用 户 提 供 很 大 一 部 分 Deep Web 内 容 。 我 们 的 搜寻 策略 可 

















以 应 用 于 Web 中 任何 使 用 get 方 法 (在 本 章 后 面 会 概述 ) 的 HTML 表 单 。 
这 主要 是 为 了 排除 一 些 我 们 不 希望 仆 虫 去 抓 取 的 表单 ， 比 如 需要 用 户 信 
奶 的 表单 或 者 是 产品 购买 结果 表单 ， 这 些 表 蛙 通常 使 用 post 方 法 。 

我 们 的 deep-web 探 寻 系 统 已 经 部 署 到 G 公 司 的 搜索 引擎 上 。 该 系统 成 
功 地 抓 取 了 几 百 个 领域 下 的 数 百 万 个 站 点 。 目 前 ， 在 G 公 司 的 网 站 上 ， 
每 秒 有 超过 1000 个 的 查询 ， 在 首页 结果 中 能 够 看 到 一 条 来 自 Deep Web 
的 搜寻 结果 。 总 体 来 说 ， 搜 索引 擎 用 户 发 现 这 些 结 果 和 普通 的 搜索 结 
一 样 有 用 。 关 于 该 解决 方案 更 详细 的 探讨 和 实验 分 析 请 参考 (Mdhavan 
2008) 和 (Mdhavan 2009) 。 

在 本 章 的 剩余 部 分 ， 我 们 首先 探讨 访问 deep-web 站 点 的 其 他 可 选 方 
案 ; 其 次 描述 思考 该 问题 的 概念 模型 ， 然 后 描述 预测 一 个 表单 中 有 用 的 
输入 框 ( 以 及 输入 框 组 合 ) 以 及 预测 适合 于 这 些 输入 框 所 需 的 合适 值 的 
策略 ， 最 后 总 结 并 评论 我 们 在 方案 部 署 方 面 的 经 验 。 














提供 Deep Web 访 问 的 其 他 可 选 方案 


访问 deep-web 内 容 有 两 种 通用 的 方法 。 第 一 种 方法 是 为 特定 领域 
(如 汽车 、 书 或 者 房地产 ) 创建 中 间 协 调 需 (mdiatom， 这 种 方法 和 家 垂 直 
搜索 引擎 广泛 采用 。 在 这 种 方法 中 ， 我 们 先 创 建 一 个 主 (mstenD) 表 单 〈 即 
作为 中 间 协 调 器 〉， 然 后 在 每 个 表单 和 该 中 间 协 调 费 之 间 创 建 语义 映 
射 。 对 于 每 个 中 间 协 调 堪 上 的 查询 ， 基 于 一 些 了 预计 算 的 表单 摘要 信息 选 
择 相 关 的 后 层 表 单 ;， 通过 语义 映射 在 每 个 表单 上 构建 查询 ;接着 从 每 个 
选择 的 表单 中 返回 内 容 ， 然 后 组 合 这 些 内 容 呈 现 给 用 户 。 从 高 层 上 看 ， 
该 方法 和 现代 提供 购物 对 比 的 门户 网 站 的 实现 思想 很 相似 ， 这 些 门户 网 
站 通过 使 用 web 服务， 返回 很 多 底层 站 点 的 供应 信息 。 

由 于 垂直 搜索 专注 于 一 个 领域 内 的 同类 表单 的 收集 ， 因 此 这 种 方法 
可 以 适合 于 垂直 搜索 ， 但 它 不 适合 于 通用 的 搜索 引擎 。 首先 ， 构 建 和 维 
护 很 多 不 同 的 中 间 协 调 右 和 上 映射 的 人 工 代 价 很 高 。 其 次 ， 识 别 对 搜索 引 
擎 关键 字 答 询 最 相关 的 表单 是 非常 具有 挑战 性 的 。 只 有 小 部 分 的 表单 需 
要 识别 ， 否 则 ， 底 层 表 单 接收 到 的 用 户 流 量 可 能 超过 了 它们 的 处 理 能 
力 。 为 了 实现 相关 表单 的 识别 ， 极 问 情 况 下 ， 表 单 的 摘要 信息 可 能 需要 
和 底层 内 容 几 乎 一 样 大 。 最 后 ， 即 更 基础 的 原因 是 ，Web 上 的 数据 可 以 
征 方方面面 ， 无 法 给 领域 的 边界 做 出 清晰 的 定义 。 因 而 ， 为 Web 创 建 一 
个 中 间 协 调 器 将 是 一 项 宏伟 的 挑 成 ， 而 且 该 中 间 协 调 器 需要 文 持 100 多 
种 语言 。 因 此 ， 当 目标 是 覆盖 很 多 领域 上 的 大 量 表单 时 ， 这 种 方法 是 不 
































可 行 的 。 

第 二 种 方法 是 探寻 ， 为 任何 感 兴 趣 的 HIML 表 单 预 先 计 算 最 相关 的 
表单 提交 。 每 个 表单 提交 生成 一 个 唯一 的 URL， 该 URL 可 以 像 任 何其 他 
的 HTML 页 面 一 样 被 搜索 引擎 索引 。 这 种 方法 能 够 充分 利用 现 有 的 搜索 
引擎 基础 设施 。 此 外 ， 它 可 以 将 deep-web 页 面 无 颖 地 融合 到 Web 搜 索 
中 ， 也 就 是 说 ， 这 些 deep-web 页 面 可 以 被 直接 插入 到 结果 页 的 排序 列表 
中 来 响应 搜索 查询 请 求 。 此 外 ， 如 果 用 户 基于 页 面 摘要 (sippet) 认 为 搜索 
结果 是 相关 的 ， 当 点 击 该 搜索 结果 时 ， 就 可 以 给 deep-web 内 容 带 来 用 户 
流量 。 

实现 探寻 方法 册 主 要 面临 两 个 挑战 。 第 一 ，HTML 表 单 通常 含有 多 
个 输入 框 ， 因 此 ， 对 所 有 输入 框 的 所 有 可 能 值 的 整个 笛 卡 儿 积 进行 枚 举 
的 简单 策略 ， 会 导致 生成 海量 的 URL。Web 爬 虫 需要 抓 取 每 个 生成 的 
URL， 抓 取 太 多 的 URL 会 耗 尽 Web 息 虫 的 资源 ， 而 且 很 可 能 会 对 这 些 
HTML 表 蛙 的 宿主 Web 服 务 嚣 带 来 无 法 承受 的 负荷 。 此 外 ， 当 笛 卡 儿 积 
非常 大 时 ， 很 可 能 会 有 大 量 的 结果 页 面 是 空 的 ， 因 而 从 索引 角度 考虑 ， 
这 些 结果 页 是 无 用 的 。 例 如 ， 在 Cars.com 上 的 某 个 查询 表单 有 5 个 输入 
框 ， 这 些 输入 框 的 笛 卡 儿 积 生成 的 URL 超 过 2.4 亿 个 ， 而 实际 上 该 网 站 
只 有 65 辆 车 待 售 (htp: /www.cars.com)。 毫 不 奇怪 ， 对 于 这 些 URL， 大 
量 的 表单 提交 将 无 法 得 到 任何 记录 ， 因 此 对 于 搜索 引擎 是 无 用 的 。 

第 二 ，HIML 表 单 通常 包含 文本 输入 框 ， 而 且 可 能 需要 输入 合适 的 
值 才 能 够 返回 检索 结果 。 文 本 输入 框 可 以 有 两 种 类 型 : 一 是 接受 任意 输 









































入 值 的 通用 输入 框 ， 如 关键 字 搜 索 框 ， 二 是 只 接受 某 个 特定 集合 中 的 值 
键入 的 输入 框 ， 图 9-1 所 示 的 是 商店 定位 的 邮政 编码 输入 框 。 

本 章 的 剩余 部 分 所 描述 的 解雇 方案 采用 如 下 策略 来 解决 这 些 挑战 。 
首先 ， 我 们 设计 了 称 之 为 “信息 度 测 试 "(iformativeness test) 的 测评 方式 ， 
用 来 评估 查询 模板 ， 即 表单 输入 框 的 组 合 。 对 于 任何 模板 ， 我 们 通过 不 
同 集合 的 值 来 探测 表单 中 的 模板 里 的 输入 框 ， 并 且 检 查 我 们 得 到 的 
HTML 页 面 之 间 是 否 有 显著 不 同 。 生 成 的 结果 页 面 显著 不 同 的 模板 被 认 
为 是 作为 探寻 的 好 的 候 先 模板。 其次， 为 了 识别 适合 于 探寻 的 查询 模 
板 ， 我 们 设计 了 一 个 算法 ， 它 可 以 高 效 地 遍历 查询 模板 的 空间 。 该 算法 
权衡 了 生成 更 少 的 URL 和 达到 网 站 内 容 的 高 覆盖 率 。 最 后 ， 我 们 设计 了 
算法 来 预测 文本 输入 框 的 合适 的 输入 值 。 该 算法 扩展 了 之 前 为 通用 文本 
输入 选择 关键 字 的 算法 (Brbosa 2004，Ntoulas 20050 ， 采 用 富 信 息 量 测 
试 方式 来 表示 从 通用 的 数据 类 型 中 识别 键入 的 输入 项 的 值 ， 比 如 邮政 编 
码 、 价 格 和 日 期 。 

HTML 表 单 处 理 的 基础 

这 里 我 们 只 是 简要 地 概述 了 表单 处 理 。 更 多 的 信息 可 以 通过 HTML 
表单 规范 来 获取 (htp: //www.w3.org/TR/html401/interact/forms.html)。 

HTML 表 单 是 由 form 标 签 定 义 的 〈 如 例 9-1) 。 参 数 action 表 示 当 表单 
提交 时 ， 需 要 执行 查询 处 理 的 服务 器 。 表 单 可 以 有 若干 个 输入 控件 ， 每 
个 控件 通过 input 标 签 定义 。 输 入 控件 可 以 有 很 多 类 型 ， 其 中 最 重要 的 是 
文本 框 (txt box)、 下 拉 选 择 框 (slect menu， 通 过 分 离 的 select 标 签 定 



































) 、 复 选 框 (ceckbox)、 单 选 按钮 (rdio button) 和 提交 按钮 (sbmit 
button)。 每 个 输入 项 都 有 一 个 name， 它 通常 不 是 用 户 可 以 直接 在 HTML 
页 面 上 看 到 的 名 字 。 用 户 可 以 选择 以 下 方式 选择 输入 值 ， 在 文本 框 中 输 
入 任意 的 关键 字 ， 或 在 下 拉 选 择 框 、 复 选 框 和 单 选 按钮 中 选择 预定 义 的 
选项 。 此 外 ， 存 在 隐藏 输入 框 (hdden inpuD， 它 的 值 是 固定 的 且 对 于 和 
表单 交互 的 用 户 是 不 可 见 的 。 隐 藏 输入 框 通常 用 于 为 表单 提交 提供 一 
额外 的 上 下 文 信息 《如 该 表单 的 来 源 站 点 ) 。 在 这 一 章 中 ， 我 们 集中 研 
究 表 单 中 的 选择 按钮 和 文本 输入 框 。 复 选 框 、 单 选 框 的 处 理 方式 和 下 拉 
选择 框 相同 。 

例 9-1: 包含 让 用 户 搜索 工作 的 表单 的 HTML 代 码 























<form action="http: //jobs.com/find"method="get"> 

<input type="hidden"name="src"value="hp"/> 

Keywords: <input type="text"name="kw"/ > 

State: <select name="st"><option value="Any"/><option 
value="AK"/> 

<option value="AL"/>.....</select> 

Sort By: <select name="sort"><option value="salary"/> 

<option value="startdate"/>....</select> 

<input type="sSubmit"name="s"value="go"/> 

</form> 


























当 提 交 一 个 表单 时 ， 浏 览 器 会 通过 get 或 者 post 方 法 ， 发 送 包 含 输入 
值 的 HITP 请 求 到 服务 器 。 如 果 采 用 get 方 法 ， 参 数 会 附加 到 action 参 数值 
后 ， 在 HTTP 请 求 中 ， 作 为 URL 的 一 部 分 (如 例 9-1 的 
http: //jobs.com/fnd?src=hp & kw=chef & st=Any & sort=salary & s=go)。 如 
果 采 用 post 方 法 ， 参 数 会 在 HITP 请 求 体 bdy) 中 发 送 ，URL 仅 仅 包 含 


action (如 例 9-1 的 http: Wjobs.com/find)。 因 此 ， 使 用 get 方 法 从 表单 中 得 
到 的 URL 是 唯一 的 (依赖 于 提交 的 参数 值 )， 但 采用 post 方 法 得 到 的 
URL 不 是 唯一 的 。 

因为 搜索 引擎 是 基于 Web 页 面 的 URL 来 识别 它们 ， 从 post 得 到 的 结 
页 面 无 法 区 分 URL， 因 此 不 能 直接 插入 到 搜索 引擎 的 索引 中 。 此 外 ， 按 
照 HTML 规 范 ， 当 表单 提交 导致 状态 变化 或 者 产生 副作用 (sde effect) 

(如 购物 车 、 旅 行 预定 和 登录 ) ， 必 须 使 用 post 表 单 。 正 如 之 前 描述 
的 ， 这 样 的 站 点 通常 本 质 上 没有 信息 。 由 于 这 些 原因 ， 我 们 把 注意 力 限 
制 在 get 表 单 ， 这 种 表单 可 以 生成 更 适合 于 Web 搜 索 的 内 容 。 

任何 需要 输入 个 人 信息 的 表单 都 必须 去 除 ， 举 个 例子 ， 通 过 过 滤 任 
何 包含 密码 输入 框 以 及 任何 如 用 户 名 、 登 录 等 通常 都 和 个 人 信息 相关 的 
单词 。 同 样 ， 只 是 简单 地 记录 用 户 反馈 或 者 评论 的 表单 也 可 以 通过 以 下 
方式 去 除 : 忽略 那些 包含 有 文本 区 域 输入 框 的 表单 。 

最 后 一 点 ， 我 们 提出 的 方案 无 法 处 理 Javascript 事 件 〈 正 如 本 章 所 描 
述 的 ) 。 表 单 和 输入 控件 可 以 包含 onselect、onclick 和 onsubmit 属 性 ， 这 
些 属性 可 以 包含 任意 的 Javascript 人 代码。 处理 这 些 事件 意味 着 要 模拟 
Javascript 在 所 有 可 能 事件 下 的 执行 。 原 则 上 ， 我 们 可 以 利用 Javascript 引 
擎 如 SpiderMonkey 和 V8《〈 见 本 章 的 “参考 文献 >) ， 通 过 利用 Web 浏 览 占 
为 我 们 执行 表单 提交 ， 从 而 扩展 我 们 的 算法 来 处 理 这 些 表 单 。 但 是 这 种 
模拟 的 处 理 代价 很 高 ， 因 而 其 挑战 在 于 能 够 快速 地 识别 那些 很 可 能 会 生 
成 deep-web 内 容 的 Javascript 表 单 ， 而 且 可 以 把 这 些 deep-web 内 容 添加 到 














搜索 引擎 索引 中 ， 也 就 是 说 ， 最 后 的 那个 Web 页 面 有 一 个 诸如 get 请 求 一 
FEA) ESSURL"(iempotent URL). 

查询 和 查询 模板 

我 们 可 以 把 表单 理解 为 允许 用 户 向 后 台数 据 库 提交 碍 询 的 接口 。 每 
个 表单 提交 都 是 一 个 查询 ， 这 个 查询 的 输入 是 表单 的 输入 框 中 提供 的 
值 ， 返 回 的 是 数据 库 的 记录 子 集 。 该 查询 属于 由 表单 输入 项 和 其 值 约束 
的 限制 性 语言 (rstricted language)。 此 外 ， 表 单 站 点 的 内 容 在 查询 之 前 是 
未 知 的 。 因 此 ， 为 探寻 选择 表单 提交 的 问题 实质 上 是 在 内 容 未 知 的 数据 
库 中 的 限制 性 语言 中 选择 一 组 查询 。 

选择 正确 的 一 组 查询 的 挑战 在 于 表单 输入 项 的 模糊 性 质 。 尤 其 是 ， 
输入 项 可 以 有 两 种 类 型 。 第 一 ， 选 择 输入 项 是 在 数据 库 记 录 上 增加 选择 
条 件 ， 如 例 9-1 中 的 kw 在 求职 描述 中 的 关键 字 (kyword)〉 Mst CORE 
(sate)) 。 选 择 输入 项 的 值 可 以 从 一 个 预定 义 的 列表 〈 通 过 选择 玉 单 ) 
中 获取 ， 或 者 在 文本 输入 项 中 输入 。 文 本 输入 项 可 能 只 接受 特定 类 型 的 
值 ， 但 其 类 型 我 们 通常 是 无 法 知道 的 。 选 择 输入 项 通常 可 以 分 配 一 个 可 
以 匹配 数据 库 中 所 有 记录 的 通配符 值 。 对 于 选择 菜单 ， 该 通配符 必须 是 
该 菜单 的 一 个 选项 ， 如 输入 状态 有 Any 这 个 选项 值 ， 对 于 文本 输入 项 ， 
其 通配符 是 空 字符 串 。 

第 二 ， 存 在 表示 层 输入 项 ， 它 们 不 影响 记录 的 选择 ， 而 只 是 控制 表 
示 方 面 ， 比 如 结果 页 面 的 排序 或 HTML 页 面 布局 ， 如 例 9-1 中 的 排序 。 对 
选择 输入 项 和 表示 层 输入 项 进行 区 分 是 探寻 算法 需要 解决 的 一 个 挑战 。 




















形式 上 ， 假 设 我 们 需要 使 用 SQL 来 提交 查询 。 我 们 可 以 把 表单 站 点 
的 内 容 建 模 为 只 包含 一 个 单 表 D 的 数据 库 ， 该 表 包含 m 个 属性 。 每 个 表 
单 提交 可 以 看 做 一 个 如 下 查询 : select*from D where P， 其 中 P 表 示 通 过 
选择 输入 项 来 表示 的 选择 谓词 。 

例如 ， 假 设 例 9-1 的 表单 是 用 于 在 job 表 Jobs(position、city、state、 
desc) 上 提交 查询 ， 提 交 请 求 返 回 在 美国 加 州 的 厨师 岗位 的 检索 ， 其 对 应 
的 查询 应 该 是 : select*from Jobs where state='CA'and desc like'%chef%' . 
注意 一 点 ， 我 们 这 里 假定 在 例 9-1 的 其 他 输入 项 是 表示 层 输 入 项 。 

探寻 的 问题 本 质 上 是 选择 一 组 较 优 的 查询 (表单 提交 ) 。 但 是 ， 对 
每 个 表单 提交 的 属性 进行 推测 是 不 现实 甚至 不 可 行 的 。 因 为 一 个 表单 可 
能 对 应 几 百 万 种 不 同方 式 的 表单 提交 ， 分 别 测试 每 个 表单 提交 可 能 会 耗 
尽 底 层 站 点 的 资源 。 为 了 推测 表单 提交 的 集合 ， 我 们 定义 了 查询 模板 。 
查询 模板 指定 表单 中 输入 项 的 一 个 子 集 作为 绑 定 输入 项 (bnding input), 
其 余 的 是 自由 输入 项 (fee inpub。 通 过 给 绑 定 输入 项 赋 以 不 同 的 值 ， 可 以 
生成 多 个 表单 提交 。 以 SQL 查询 为 例 ， 查 询 模板 可 以 简洁 地 表示 表单 中 
的 所 有 查询 select*from D where P'， 其 中 P' 只 包含 表单 中 绑 定 输入 项 的 
选择 谓词 。 绑 定 输入 项 的 个 数 即 模板 的 维度 。 表 9-1 显 示 了 例 9-1 表 单 查 
询 模板 的 三 个 实例 。 











表 9-1: FPRRKAF. STRRAAFOHALHARURSMHARSRRHURLRSVEZ 


Jobs 数 据 库 上 的 SQL 坦 询 
HEMAN | 表单 提交 URL 和 SQL 查询 
st URL: Attp://jobs com/find?src=hp&kw= &st=S&sort=salary&s=g0 


查询 : select * from Jobs where state = S$ 
kw | URL: Attp://jobs com/find?sreczhp&kwz K&stzAny&sortzsalary&sz go 
fri: select * from Jobs where desc like '&KX' 
| st, kw | URL: Attp://jobs com/find?src=hp&kw=K&st=S&sort=salary&s=g0 
查询 : select * from Jobs where state = S and desc like 'XKX' 


注意 ， 在 实践 中 ， 为 了 生成 有 效 的 表单 提交 ， 必 须 给 模板 中 的 自由 
输入 项 分 配 值 。 理 想 情 况 下 ， 我 们 希望 不 要 为 模板 的 SQL 查询 增加 任何 
额外 的 选择 条 件 。 对 于 文本 输入 ， 我 们 可 以 分 配 空 字 符 串 ， 对 于 选择 菜 
单 ， 我 们 可 以 分 配 菜单 的 默认 值 ， 期 望 该 值 可 以 用 通配符 表示 。 我 们 注 
意 到 ， 为 了 减少 用 户 交互 操作 的 麻烦 ， 绝 大 部 分 的 表单 都 支持 通配符 表 
Re 

探寻 deep-web 站 点 的 问题 现在 可 以 划分 为 两 个 子 问题 : 

.选择 一 组 合适 的 查询 模板 ; 

.为 绑 定 输入 项 选择 合适 的 输入 值 ， 即 采用 实际 值 来 初始 化 查询 模 
板 。 对 于 一 个 选择 框 ， 可 以 使 用 该 选择 框 的 所 有 选项 ， 但 是 对 于 文本 输 
入 框 ， 必 须 预测 输入 值 ， 而 且 我 们 不 能 假定 对 于 需要 考虑 的 那些 值 所 在 
的 领域 存在 先 验 知识 。 

为 了 在 说 明 上 尽 可 能 简单 ， 我 们 假设 初始 化 输入 项 的 一 组 值 对 于 绑 
定 输入 项 的 所 有 模板 都 是 一 样 的 。 但 是 ， 实 际 上 有 些 输入 可 能 是 相关 
的 。 例 如 ， 一 个 输入 项 (如 cityName) 的 值 可 能 依赖 于 选 定 的 另 一 个 输 
入 项 (如 state) 的 值 ， 或 者 多 个 输入 项 (如 salaryMax 和 salaryMin) 可 能 会 











约束 相同 的 底层 属性 。 

选择 输入 项 组 合 

我 们 首先 描述 如 何 判断 表单 中 的 输入 项 和 输入 项 组 合 对 于 探寻 是 有 
用 的 。 现 在 ， 我 们 假定 表单 中 的 每 个 输入 项 的 值 都 是 已 知 的 ， 也 就 是 
说 ， 把 文本 输入 项 和 选择 菜单 都 统一 对 待 。 对 文本 输入 项 中 的 值 进行 选 
择 的 问题 将 在 第 10 章 探讨 。 

正如 所 看 到 的 ， 我 们 可 以 把 探寻 问题 建 模 为 选择 一 组 合适 的 查询 模 
板 。 在 选择 一 组 正确 的 模板 中 ， 从 识别 我 们 需要 追求 的 一 些 目标 开始 。 
正如 之 前 所 述 ， 简 单 地 枚 举 所 有 可 能 的 输入 值 的 笛 卡 儿 积 的 策略 既 浪 费 
(给 Web 疏 虫 和 表单 的 宿主 服务 器 施加 负载 负担 ) ， 又 不 必要 (因为 有 
大 量 的 URL 可 能 不 包含 数据 记录 ) 。 

因为 我 们 想 尽 可 能 多 地 发 现 deep-web 内 容 ， 很 自然 地 ， 其 处 理 策 略 
的 一 个 目标 是 最 大 化 底层 数据 库 的 覆盖 率 《〈 即 返回 记录 的 所 有 数量 ) ， 
同时 限制 表单 提交 的 总 数量 。 但 是 ， 由 于 我 们 生成 的 页 面 需要 添加 到 搜 
索引 擎 的 索引 中 ， 因 此 我 们 也 必须 解决 一 些 其 他 的 问题 。 

首先 ， 最 佳 的 策略 可 能 是 确定 一 些 能 够 包含 大 量 结果 的 表单 提交 。 
但 是 ， 有 大 量 结果 的 Web 页 面 并 不 一 定 最 适合 添加 到 搜索 引擎 索引 中 。 
举 个 例子 ， 对 一 个 二 手 车 网 站 ， 只 有 一 个 包含 所 有 待 售 的 Honda 汽 车 的 
页 面 是 没有 用 的 ; 相反 ， 如 果 它 有 多 个 页 面 ， 包 含 Honda 的 每 个 模型 或 
者 不 同 价格 范围 则 更 理想 。 因 此 ， 我 们 希望 生成 在 每 个 页 面 中 既 不 包含 
太 少 也 不 包含 太 多 记录 的 URL。 





























其 次 ， 虽 然 一 个 搜索 引擎 的 主 索 引 很 大 ， 它 还 是 远 远 不 够 存储 从 
Deep Web 抽 取 的 所 有 页 面 。 由 于 搜索 引擎 最 重要 的 目标 是 根据 用 户 的 
查询 将 用 户 引 导 到 相关 的 Web 站 把， 我 们 更 希望 拥有 来 自 很 多 站 点 的 丰 
富 且 重 要 的 内 容 。 从 某 种 意义 上 说 ， 生 成 的 URL 个 数 不 需 要 是 完整 的 ， 
但 必须 足够 好 以 便 将 流量 引导 到 底层 站 点 。 

再 次 ， 对 于 Web 站 点 探寻 来 说 ， 实 际 上 不 需要 退 求 百 分 百 的 才 兰 
率 ; 为 一 个 站 点 的 那些 内 容 丰富 的 页 面 建立 Web 索 引 束 足够 。 定 期 执 
行 的 Web 扑 虫 最 终 会 抓 到 通过 探寻 得 到 的 页 面 的 超 链接 (如 对 于 相同 的 
查询 ， 链 接 到 更 多 的 结果 ， 或 者 链接 到 相关 查询 的 结果 〉 ， 因 此 ， 最 终 
该 网 站 的 履 兰 率 会 增长 。 

总 之 ， 为 了 实现 只 通过 在 每 个 站 点 提交 少量 的 查询 就 能 够 达到 较 好 
的 (可 能 是 不 完整 的 ) AK, BAN A toe ALA P A I] FE ee 8E 
择 得 询 ， 而 且 通 过 探寻 将 获取 的 页 面 作为 搜索 引擎 索引 的 好 的 候选 页 
面 。 

查询 模板 的 质量 

我 们 可 以 把 以 上 列 出 的 每 个 目标 作为 查询 模板 的 标准 。 例 如 ， 我 们 
绝对 不 想 要 一 个 包含 表现 层 和 输入 项 作为 绑 定 输入 项 的 模板 。 这 种 模板 返 
回 的 结果 也 可 以 简单 地 通过 一 个 不 包含 表现 层 输入 项 的 模板 来 提交 但 
询 ， 从 而 获得 返回 结果 ， 而 且 这 种 处 理 方式 ， 通 常 可 以 生成 更 少 的 
URL. 

包含 很 多 维度 的 模板 通常 不 是 我 们 想 要 的 ， 因 为 它们 生成 太 多 的 





















































URL， 这 些 URL 中 有 很 多 无 法 返回 结果 。 然 而 ， 维 度 越 多 的 模板 能 够 保 
证 返回 越 多 的 记录 。 

维度 较 小 的 模板 通常 是 我 们 更 想 要 的 ， 因 为 它们 生成 较 少 的 URL， 
但 是 也 有 可 能 这 些 查 询 每 个 都 将 返回 太 多 的 结果 。 正 如 之 前 所 述 ， 有 大 
多 记录 的 页 面 并 不 适合 作为 索引 。 此 外 ， 站 点 可 能 对 在 每 个 页 面 上 显示 
的 实际 记录 有 限制 ， 因 此 减少 了 返回 的 实际 记录 的 数量 。 

因此 ， 我 们 期 望 模板 1) 不 包含 任何 绑 定 的 表现 层 和 输入 项 ; 20 不 包 
含 维 度 太 多 或 者 太 少 的 URL。 从 直观 上 说 ， 模 板 的 维度 应 该 依赖 于 底层 
的 数据 库 大 小 。 

现在 我 们 定义 一 个 测试 来 进一步 说 明之 前 所 述 的 标准 。 在 我 们 描述 
之 前 ， 先 举 个 例子 来 说 明 这 个 想法 。 如 例 9-1 表 单 的 两 个 模板 ， 模 板 T1 
只 有 一 个 绑 定 输入 项 st(State); 模板 T2 只 有 一 个 绑 定 输入 项 sort(Sort 
by)， 现 在 考虑 这 两 个 模板 生成 的 表单 提交 集合 〈 如 表 9-2 所 示 ) 。 


R9-2: 通过 分 析 模 板 的 表单 提交 生成 的 内 容 的 相似 性 来 确定 模板 是 否 为 襄 信 息 量 (informative) 











查询 模板 模板 表单 提交 
( 绑 定 输入 项 ) ( 富 信 息 量 的 / 非 富 信息 量 的 ) 
Ti(st) http:/jobs.comifind? src=hp &kw= &st=Any&sort=salary &s=go 


httip://jobs.com/find? srczhp &kw= &stzAK&sortzsalary&szgo 


http://jobs .comifind? src=hp &kw= &st=AL&sort=salary&s=go 
网 页 内 容 不 同一 模板 是 富 信 息 量 的 

T2(sort) http://jobs.com/find? src=hp &kw= &st=Any&sort=salary&s=g0 
http://jobs.comifind? src=hp &kw= &st=Any&sort=startdate &s=go0 
网 页 内 容 相同 一 模板 是 非 富 信 息 量 的 


我 们 注意 到 模板 TI 的 每 个 提交 都 返回 不 同 状态 下 的 job 列表 。 因 此 ， 
返回 的 记录 不 同 ， 从 而 结果 Web 页 面 内 容 将 会 很 不 一 样 。 我 们 称 这 种 生 














成 的 web 页 面 内容 很 不 同 的 模板 为 富 信息 量 模板 。 反 之 ， 因 为 没有 关键 
字 ，T2 中 的 每 个 提交 返回 的 记录 都 是 相同 的 〈 所 有 job) 我 们 称 这 种 模板 
为 非 富 信息 量 模板 。 从 本 质 上 讲 ， 我 们 的 目标 是 选择 富 信息 量 模板 ， 去 
除非 富 信息 量 模板 。 

因此 ， 我 们 可 以 基于 从 表单 提交 生成 的 Web 页面 的 内 容 区 分 度 
(dstinctness) 来 评价 模板 。 我 们 通过 基于 由 模板 生成 的 web 页 面 内 容 的 相 
似 性 来 对 这 些 页 面 进行 聚 类 ， 从 而 估计 该 模板 生成 的 不 同 的 web 页 面 的 
数量 。 

如 果 和 表单 提交 的 数量 相 比 ， 不 同 的 Web 页 面 的 数量 很 小 ， 很 可 能 
是 如 下 情况 : 1) 该 模板 包含 表现 层 输 入 项 ， 因 此 多 个 页 面 的 集合 本 质 
上 有 相同 的 记录 ; 2) 模板 维度 相对 于 底层 数据 库 来 说 太 多 ， 因 此 产生 
大 量 的 无 记录 页 面 ， 不 同 页 面 之 间 都 很 相似 ;3) 模板 (或 者 表单 ) 有 
问题 导致 出 现 错误 结果 页 面 ， 这 些 错误 结果 页 面 也 很 相似 。 如 果 模 板 不 
存在 这 种 情况 ， 但 是 还 是 生成 很 相似 的 内 容 ， 那 可 能 是 搜索 引擎 索引 的 
边界 值 ， 因 此 不 可 能 对 搜索 引擎 查询 有 任何 影响 。 

富 信息 量 测试 

我 们 考虑 对 于 给 定 模 板 生 成 的 URL， 并 且 下 载 这 些 Web 页 面 的 内 
容 。 我 们 计算 从 每 个 提交 得 到 的 Web 页 面 内 容 的 签名 ， 当 一 个 模板 生成 
的 Web 页 面 内 容 计 算得 到 的 签名 个 数 远 远 少 于 可 能 的 提交 个 数 时 ， 则 认 
为 该 模板 是 非 富 信息 量 的 。 


证 信息 量 是 根据 闵 值 来 定义 的 ， 该 闵 值 可 以 通过 实验 确定 。 假 设 Sd 
















































































是 不 同 签名 的 集合 ，St 是 所 有 签名 的 集合 。 那 么 ， 当 |S$dllStl>tr 时 ， 表 示 
TI 是 富 信息 量 模板 。 

相 比 之 下 ， 关 于 内 容 签名 更 具体 的 细节 不 是 很 重要 ， 我 们 列举 了 该 
函数 需要 的 一 些 重要 属性 。 首 先 ， 该 签名 必须 对 HTML 格 式 是 透明 的 ， 
因为 表现 层 输入 项 通常 只 是 改变 Web 页 面 的 布局 。 其 次 ， 该 签名 必须 和 
词 项 的 排序 无 关 ， 因 为 结果 重 排 是 很 普通 的 表现 层 操 作 。 再 次 ， 该 签名 
必须 能 够 忽略 页 面 间 的 细微 区 别 ， 因 为 区 别 的 来 源 通常 是 广告 ， 尤 其 是 
商业 网 站 ， 更 是 如 此 。 这 些 广告 通常 在 页 面 边缘 处 展现 。 它 们 增加 了 页 
面 的 文本 内 容 但 是 并 不 反映 返回 结果 的 内 容 ， 因 此 必须 被 过 滤 掉 。 这 些 
签名 不 应 该 包含 输入 项 的 值 本 身 。 一 个 二 手 车 搜索 网 站 ， 如 果 在 邮编 为 
94107 的 区 域 没有 红色 的 Honda Civic 车 出 售 ， 则 很 可 能 会 有 这 样 的 错误 
言 息 “ 在 94107 区 域 没有 红色 Honda Civic 汽 车 出 售 ! "(N search results for 














Red Honda Civic in 94107! ) 。 类 似 的 ， 对 于 以 {color make model zip} 
为 查询 项 的 结果 页 面 ， 会 有 大 量 的 “No search results for(color make 
model}in{zip}” 的 结果 页 。 这 些 页 面 的 唯一 区 别 是 搜索 词 不 同 ， 不 排除 
搜索 词 的 签名 很 可 能 会 把 这 些 页 面 当 做 不 同 的 页 面 ， 因 而 认为 相应 的 模 
板 是 富 信息 量 的 。 

在 实践 中 ， 可 能 不 需要 分 析 一 个 模板 生成 的 所 有 提交 的 内 容 ， 而 只 
是 需要 测试 所 有 可 能 提交 的 一 个 足够 大 的 样本 集合 就 够 了 。 

搜索 富 信息 量 查询 模板 

我 们 的 目标 是 搜索 表单 中 的 富 信息 量 查 询 模板 。 我 们 可 以 采取 一 个 


























非常 简单 的 策略 来 考虑 表单 中 所 有 可 能 的 模板 ， 并 对 每 个 模板 应 用 宇 信 
县 量 测试 。 但 是 ， 假 设 一 个 表单 包含 n 个 输入 项 ， 存 在 20-1 个 可 能 的 模 

板 ， 那 么 对 每 个 可 能 的 模板 进行 测试 的 计算 代价 很 高 而 且 不 必要 ， 因 

此 ， 可 以 采取 增 量 式 的 全 略 而 不 是 吉 历 所 有 模板 空间 ， 并 且 只 测试 那些 
可 能 是 富 信 息 量 的 模板 。 

我 们 的 策略 是 从 单一 的 绑 定 输入 项 模板 开始 ， 通 过 目下 而 上 的 方式 
搜索 模板 空间 。 这 种 策略 的 基本 思路 是 认为 模板 的 信息 量 很 可 能 依赖 于 
已 扩展 的 模板 ， 也 惑 是 说 ， 它 有 额外 的 绑 定 输入 项 。 如 果 模 板 T 有 维度 
k， 而 且 其 扩展 的 所 有 维度 小 于 k《〈 即 维度 为 k-1) 的 模板 都 是 非 富 信息 
量 ， 那 么 T 不 可 能 是 富 信 息 量 模板 。 

我 们 通过 所 有 维度 为 1 的 模板 开始 ， 测 试 每 个 候选 模板 的 信息 量 。 如 
果 有 维度 为 1 的 模板 被 认为 是 富 信 息 量 模板 ， 我 们 就 给 该 模板 维度 加 1， 
也 惑 是 说 ， 构 建 包 含 绑 定 输入 项 超 集 的 维度 为 2 的 模板 。 

因此 ， 候 选 模板 必须 至 少 包含 一 个 是 信息 量 扩展 模板 (但 该 候选 模 
板 其 本 号 并 不 一 定 是 语 信 息 量 ) 。 然 后 测试 每 个 新 的 候选 模板 来 确定 该 
新 模板 是 否 为 证 信 息 量 。 从 维度 为 2 的 证 信息 量 模板 ， 我 们 继续 以 相同 
的 方式 构建 维度 为 3 的 候选 模板 ， 如 此 反复 操作 。 如 果 茶 个 维度 不 包含 
富 信 息 量 模板 ， 程 序 就 终止 。 

注意 : 当 增 加 一 个 模板 时 ， 考 虑 到 所 有 的 候选 输入 项 。 我 们 可 以 选 
择 更 积极 的 宋 略 ， 只 考虑 让 信息 量 的 输入 项 ， 即 其 相应 的 维度 为 1 的 模 
板 是 是 信 息 量 的 。 但 是 ， 我 们 相信 ， 在 实践 上 ， 这 种 全 略 会 错误 地 ) 

























































































忽略 一 些 证 信息 量 模 板 。 也 有 很 多 表单 ， 包 含 一 个 主要 输入 项 用 于 返回 
结果 ， 而 其 他 的 输入 项 实际 上 只 是 作为 修饰 。 例 如 ， 一 个 包含 make 和 
color 输 入 项 的 表单 ， 如 果 对 于 make 输 入 项 选择 默认 值 ， 而 只 选择 color 
这 一 输入 项 时 ， 则 无 法 返回 结果 记录 。 因 此 ， 只 有 绑 定 输入 项 color 的 表 
单 是 非 富 信息 量 ， 而 包含 make 和 color 的 则 是 富 信息 量 。 

一 旦 搜索 终止 ,我们 可 以 把 所 有 证 信息 量 模 板 生成 的 URL 增 加 到 搜 
索引 擎 的 索引 中 。 对 于 搜索 的 调整 有 很 多 可 以 完善 的 地 方 。 例 如 ， 我 们 
发 现 永 远 都 不 需要 考虑 多 于 三 个 绑 定 输入 项 的 模板 ， 或 者 是 生成 很 多 提 
区 的 模板 。 它 们 不 可 能 是 富 信 息 量 模板 ， 因 此 可 以 很 容易 地 删除 这 些 模 
板 。 不 需要 分 析 由 一 个 模板 生成 的 所 有 URL; 通常 来 说 ， 考 虑 一 个 足够 
大 的 样本 就 够 了 。 

实验 分 析 表 明 ， 我 们 的 算法 生成 的 URL 远 远 少 于 其 他 更 简单 的 可 选 
策略 。 特 别 地 ， 我 们 发 现 生成 的 URL 数 量 比 不 采用 富 信息 量 测试 的 最 佳 
的 请 发 式 算法 少 了 两 个 数量 级 。 我 们 还 发 现 该 方法 可 以 高 效 地 为 表单 确 
定 宇 信 息 量 模板 一 一 在 分 析 过 程 中 ， 无 论调 试 的 模板 个 数 还 是 下 载 的 模 
板 提 区 总 数 在 数量 上 都 很 小 。 重 要 的 是 ， 我 们 发 现 生成 的 URL 依 赖 于 底 
层 数 据 库 的 大 小 ， 而 不 是 表单 中 输入 项 的 个 数 。 

预测 输入 项 值 

大 量 的 HTML 表单 包含 文本 输入 项 。 此 外 ， 有 些 包含 选择 集 单 的 表 
单 必 须 有 文本 输入 项 值 才能 够 返回 检索 结果 。 

我 们 注意 到 文本 输入 项 通常 用 于 两 种 方式 。 第 一 ， 通 用 的 输入 项 实 
























































际 上 可 以 接受 任何 合理 的 值 ， 在 输入 项 输入 的 奋 询 词 可 以 返回 在 后 合 数 
据 库 中 包含 该 词 的 所 有 文档 。 这 种 情况 的 通 冲 例子 是 通过 标题 或 者 作者 
搜索 书籍 。 第 二 ， 存 在 一 些 键入 的 输入 项 (tped input)。 这 种 输入 项 的 值 
只 能 是 一 个 定义 民 好 的 有 限 集 或 者 数据 类 型 (如 邮政 编码 ) ， 或 者 属于 
一 些 连 续 的 但 定义 良好 的 数据 类 型 (如 日 期 或 价格 )。 在 固定 格式 的 文 
本 框 中 输入 无 效 的 值 遂 常会 叶 致 错误 页 面 ， 因 此 识别 正确 的 数据 类 型 很 
重要 。 在 通用 的 文本 输入 框 中 输入 不 好 的 关键 字 仍 然 可 以 返回 一 些 结 
果 ， 因 此 挑战 在 于 可 以 识别 关键 字 的 一 个 有 限 集 合 ， 从 该 集合 中 可 以 抽 
取 很 多 不 同 的 结果 页 面 。 

文本 输入 项 的 两 种 类 型 可 以 分 别 对 等。 在 接 下 来 的 部 分 ， 我 们 首先 
描述 一 个 算法 为 通用 的 输入 项 生成 关键 字 ， 然 后 考虑 键入 的 输入 项 。 

通用 的 文本 输入 项 

在 我 们 描述 如 何 为 通用 的 输入 项 识别 好 的 候选 关键 字 前 ， 先 来 考虑 
FRED 一 个 可 能 的 备 选 方案 。 可 以 想象 ， 我 们 本 可 以 在 各 种 领域 把 
涉及 的 碍 询 词 列表 作为 文本 输入 项 值 ， 并 把 每 个 文本 输入 项 值 和 最 适合 
的 查询 词 列表 进行 匹配 。 但 是 ， 我 们 很 快 发 现 这 种 处 理 方式 会 有 太 多 的 
概念 和 领域 。 而 且 ， 对 于 通用 的 输入 项 ， 即 使 我 们 在 相同 领域 符合 相同 
概念 的 两 个 分 离 的 表单 中 识别 输入 项 ， 相 同 集合 的 关键 字 也 不 一 定 在 两 
个 站 点 上 都 能 正常 工作 。 最 佳 的 关键 字 通 常 是 属于 特定 站 氮 的 (ste- 
specific)。 由 于 我 们 的 目标 是 扩展 到 几 百 万 的 表单 和 多 种 语言 ， 我 们 需 
要 一 种 简单 、 高 效 和 完全 自动 化 的 技术 。 


























我 们 采用 迭代 式 探测 的 方法 : 从 高 层 上 ， 我 们 指定 候选 关键 字 的 初 
始 种 子 集合 作为 文本 框 的 输入 值 ， 构 建 查 询 模板 ， 把 该 文本 框 作为 单一 
绑 定 输入 框 。 生 成 相应 的 表单 提交 ， 下 载 相应 的 Web 页 面 内 容 ， 从 结果 
文档 中 抽取 额外 的 关键 字 。 然 后 ， 我 们 用 这 些 抽 取 的 关键 字 更 新 文本 框 
的 候选 值 ， 重 复 该 过 程 直 到 无 法 进一步 抽取 关键 字 或 者 达到 了 某 个 候选 
的 停止 条 件 ， 如 有 足够 多 的 候选 关键 字 。 在 终止 时 ， 选 择 候选 关键 字 子 
集 作为 文本 框 的 输入 值 集 合 。 

迭代 式 探测 在 过 去 作为 从 文本 数据 库 中 检索 文档 的 方法 而 提出 
(Brbosa 2004, Callan 2001, Ipeirotis 2002, Ntoulas 2005) 。 但 是 ， 这 
些 方法 的 目标 是 实现 特定 站 点 的 最 大 履 盖 。 因 此 ， 它 们 采用 了 和 站 点 相 
关 的 (ste-aware) 技 术 ， 这 些 方法 无 法 应 用 于 所 有 的 领域 。 

在 高 层 上 ， 我 们 定制 了 如 下 友 代 式 的 探测 方式 : 

为 了 确定 文本 输入 框 实际 上 是 否 是 一 个 通用 输入 框 ， 在 第 一 次 迭代 
时 ， 使 用 初始 候 :选集 合 在 模板 上 执行 富 信息 量 测 试 。 结 果 表 示 ， 通 用 
的 文本 输入 框 很 可 能 会 被 认为 是 富 信息 量 模板 ， 而 其 他 的 输入 框 则 是 非 
富 信息 量 。 

:为 了 选择 候选 值 的 种 子 集合 ， 我 们 分 析 了 包含 该 表单 的 Web 页 面 的 
内 容 。 我 们 通过 识别 与 页 面 内 容 最 相关 的 单词 来 选择 页 面 的 单词 。 任 何 
合理 的 查询 词 打分 方法 ， 如 流行 的 TF-IDF 方 法 (Slton 1983) ， 都 可 用 于 
选择 表单 页 面 的 几 个 最 佳 查询 词 。 

为 了 在 每 次 迭代 结束 时 选择 新 的 候选 值 ， 我 们 考虑 为 模板 分 析 的 所 





























有 表单 提交 页 面 : 上 找到 的 所 有 选择 词 集合 。 排 除 在 很 多 页 面 上 都 包含 
的 选择 词 ， 因 为 这 些 选 择 词 出 现在 每 个 页 面 上 ， 很 可 能 是 HTML 样 本 模 
板 的 一 部 分 。 我 们 还 排除 只 出 现在 一 个 页 面 上 的 选择 词 ， 因 为 这 些 选 择 
词 很 可 能 是 没有 意义 的 或 者 是 具有 特殊 含义 ， 不 能 代表 该 表单 所 表示 的 
站 点 的 内 容 。 

为 了 对 文本 输入 框 选择 最 终 输入 值 集合 ， 考 虑 从 表单 页 面 或 提交 页 
面 抽 取 的 所 有 候 : 选 值 ， 根 据 这 些 值 检索 到 最 丰富 的 内 容 的 能 力 来 选择 
这 些 值 (通过 分 析 从 表单 提交 得 到 的 页 面 内 容 〉。 

我 们 注意 到 ， 为 每 个 文本 输入 框 设置 单一 的 关键 字 个 数 的 最 大 值 的 
方式 是 不 合理 的 ， 因 为 表单 站 点 的 结果 内 容 的 区 别 可 能 是 几 个 、 几 十 个 
到 几 百 万 个 。 我 们 采用 back-off 的 策略 来 解决 该 问题 。 从 每 个 表单 一 个 
小 的 最 大 值 开始 ， 在 这 过 程 中 ， 我 们 评估 了 这 些 生成 的 URL 对 搜索 引擎 
流量 会 带 来 的 影响 。 如 果 受 到 影响 的 查询 个 数 很 高 ， 那 么 我 们 就 为 该 表 
单 提 高 关键 字 个 数 限制 ， 然 后 重启 探测 进程 。 

实验 分 析 表 明 ， 这 里 概述 的 迭代 式 探测 方法 对 于 通用 输入 框 选择 输 
入 项 值 是 有 效 的 。 相 应 的 表单 提交 可 以 展现 底层 数据 库 大 量 的 记录 个 
数 。 有 趣 的 是 ， 我 们 发 现 相同 表单 的 文本 输入 项 和 选择 羔 单 通常 能 够 展 
现 底层 数据 的 不 同 部 分 。 我 们 还 可 以 构建 Web 怜 虫 ， 通 过 系统 生成 的 
URL， 能 够 随时 间 展 现 更 多 的 deep-web 内 容 。 

键入 的 文本 输入 项 

实践 表明 ， 存 在 相对 较 少 的 类 型 ， 如 果 能 够 识别 出 来 ， 可 以 用 于 索 




















引 很 多 领域 ， 因 此 出 现在 很 多 表单 中 。 例 如 ， 邮 政 编码 在 很 多 领域 被 作 
为 输入 项 ， 包 括 店铺 定位 、 二 手 车 、 公 共 记 录 和 房地产 。 类 似 的 ， 日 期 
通常 在 很 多 领域 作为 输入 项 ， 如 事件 和 文档 档案 。 我 们 基于 两 个 想法 来 
利用 以 上 的 观察 。 首 先 ， 只 有 键入 适当 值 ， 键 入 的 文本 输入 框 才 可 以 生 
成 合理 的 结果 页 面 。 通 过 这 个 想法 ， 我 们 使 用 己 知 值 为 流行 类 型 构建 富 
言 恩 量 训 试 。 我 们 考虑 有 限 的 和 连续 的 类 型 。 对 于 有 限 的 类 型 〈 如 美国 
的 邮政 编码 和 州 的 缩写 ) ， 使 用 已 知 值 的 部 分 样本 进行 证 信息 量 测 试 。 
对 于 连续 的 类 型 ， 可 以 根据 不 同 规模 次 序 ， 测 试 使 用 均匀 分 布 值 的 集 
合 。 我 们 可 以 使 用 这 样 的 输入 项 名 称 列表 ， 通 过 手工 提供 或 者 随时 间 进 
行 学 习 《〈 参 见 [Doan 2001]〉， 来 选择 候选 输入 项 ， 应 用 于 是 信息 量 测 
i. 

上 即 决 定 提交 查询 表单 时 ， 需 要 填写 哪些 输入 框 ， 并 找到 合适 的 值 














结论 





我 们 描述 了 探寻 Deep Web 内 容 的 方法 ， 使 得 搜索 引擎 可 以 访问 这 些 
内 容 。 该 系统 最 重要 的 要 求 是 它 必 须 是 完全 自动 化 的 〈 因 此 可 以 扩展 到 
整个 Web)， 而 且 可 以 从 任何 语言 、 任 何 领域 来 检索 内 容 。 有 意思 的 
是 ， 这 些 严 格 的 要 求 激发 我 们 探索 出 一 个 相对 简单 优雅 的 解决 方案 ， 从 
而 表明 简单 性 通常 是 解决 复杂 问题 的 关键 。 

今后 探寻 Deep Web 的 工作 有 很 多 方向 。 特 别 地 ， 可 以 识别 表单 中 存 
在 的 特定 类 型 来 扩展 爬虫 的 覆盖 度 。 例 如 ， 各 个 域 的 组 合 之 间 通 常 是 相 
互 关 联 的 (如 MinPrice 和 MaxPrice)， 输 入 有 效 的 精心 选择 的 值 的 组 合 可 
以 探寻 到 更 多 的 页 面 。 
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第 10 蔓 ”构建 Radiohead 的 “House of Cards” 


Aaron Koblin 和 Valdean Klump 

这 是 一 个 关于 获 格 莱 美 (Gammy) 奖 提名 的 乐队 Radioheadi 的 音乐 视 
频 “House of Cards” 是 如 何 完全 根据 数据 创建 出 来 的 故事 。 在 你 阅读 本 章 
之 前 ， 你 应 该 先 观看 这 个 视频 。 该 视频 权威 资料 在 Gcode 项 目 页 面 
(htp: //code.google.convradiohead) 上 可 以 找到 。 在 该 网 站 上 你 还 可 以 找 
到 一 些 其 他 的 资源 ， 包 括 我 们 用 于 构建 该 视频 的 数据 样本 ， 一 个 允许 你 
通过 3D 模 式 查 看 数据 的 Flash 应 用 ， 一 些 你 可 以 用 来 创建 自己 的 可 视 
化 ， 以 及 一 个 “Making of” 的 代码 视频 。 当 然 首先 需要 找 出 这 些 代 码 。 





这 一 切 是 如 何 开始 的 


2007 年 9 月 ， 我 收 到 一 封 来 自 James Frost 的 电子 邮件 ， 询 问 我 是 否 对 
基于 数据 来 创造 一 个 音乐 视频 感 兴趣 。James 是 一 个 天 才 视 频 导 演 ， 他 
为 Coldplay、Norah Jones、Pearl Jam 以 及 很 多 其 他 流行 的 艺术 家 做 了 很 
多 工作 。 他 看 过 我 的 “飞行 模式 ”(Fight Patterns) 项 目 〈 见 图 10-1) 一 一 使 
用 空中 交通 的 GPS 数 据 对 商业 飞行 模式 和 密度 进行 可 视 化 一 一 而 且 希 望 
人 页 面 并 讨论 制作 一 个 可 视 化 音乐 视频 。 











图 10-1: 来 自 “ 飞 行 模式 ”的 静态 图 片 (2005) 〈 见 彩 图 22) 

两 个 月 后 ，James、 他 的 制 片 人 Justin Glorieux 和 我 在 洛杉矶 的 咖啡 厅 
会 面 ， 我 们 讨论 了 一 些 想法 。 我 辐 他 们 展示 了 自己 做 过 的 一 些 项 目 以 及 
我 认为 有 助 于 可 视 化 制作 的 一 些 技术 。 我 们 讨论 了 使 用 Proccessing 编 程 
语言 的 一 些 可 能 性 ， 该 语言 已 经 广泛 应 用 于 数据 可 视 化 。 最 终 通过 这 种 


方式 为 Interpol 乐 队 制 作 了 “Rest My Chemistry” 视 频 ， 该 视频 在 2008 年 3 
月 发 行 。 如 果 你 从 来 没有 用 过 Processing 语 言 ， 我 强烈 建议 你 访问 它 的 
网 站 : http: /processing.org/， 并 找 出 相关 代码 。 就 我 所 知 ，Processing 
对 于 艺术 家 、 设 计 人 员 或 者 任何 对 动态 数据 可 视 化 感 兴 趣 的 人 而 言 ， 都 
是 最 佳 的 编程 语言 。 

我 们 讨论 的 另 一 种 可 能 是 对 激光 传感器 收集 的 数据 进行 可 视 化 。 我 
在 加 州 大 学 洛杉矶 分 校 (ULA) 的 散 入 式 网 络 传 感 (CNS) 中 心 做 一 个 项 目 
时 ， 第 一 次 接触 了 这 种 技术 。CENS 使 用 激光 来 检测 光线 是 如 何 穿 透 森 
林 的 履 盖 的 ， 我 被 泻 染 后 的 图 片 所 缠 含 的 内 在 美 深 深 地 震撼 f. James 
看 完 一 些 例子 后 ， 同 意 了 我 的 建议 ， 而 且 使 用 激光 来 制作 影片 的 想法 给 
他 留 下 了 深刻 的 印象 。 他 问 : “你 的 意思 是 不 用 摄像 机 来 拍摄 视频 ? 不 
用 视频 就 可 以 拍摄 视频 ? ”他 马上 意识 到 可 以 做 一 件 从 来 没有 做 过 的 事 
情 。 在 那 之 后 不 久 ， 他 以 这 种 想法 开始 制作 Radiohead 的 音乐 视频 。 

硕 望 你 能 够 了 解 该 影片 是 如 何 制作 的 并 从 中 找到 自己 的 工作 灵感 。 
在 这 一 章 ， 我 将 首先 讨论 我 们 捕 换 数 据 所 使 用 的 工具 。 然 后 ， 我 将 谈 到 
数据 本 号 即 视频 拍摄 ， 以 及 后 期 的 数据 处 理 。 最 后 ， 我 们 一 起 来 看 我 在 
GCode 网 站 上 提供 的 数据 可 视 化 代码 ， 并 讨论 你 可 以 自己 如 何 发 挥 它 。 

[Radiohead 是 一 支 来 自 牛津 大 学 的 乐 了 从， 通常 中 文 翻 译 为 “电台 司 
令 ”， 实 际 上 是 指 收音 机 粉丝 (因此 本 书 对 该 词 不 做 翻译 ,保留 原 
X) ， 乐 队 由 Thom Yorke (£3, #447) ~ Ed O'Brien (主唱 ， 吉 他 








+) 、Jonny Greenwood (吉他 手 ) . Colin Greenwood ( 贝 司 ) 和 Phil 


Selway (鼓手 ) 组 成 ， 是 20 世 纪 90 年 代 初 受 华丽 壮美 的 竞技 /三 台 摇 滚 所 
影响 的 另类 乐队 。 


数据 捕 换 设备 


如 果 没 有 一 些 精密 复杂 的 数据 捕捉 设备 ，“House of Cards” 视 频 就 不 
可 能 成 功 。 当 你 观看 视频 ， 你 会 注意 到 有 很 多 场景 ， 从 静态 的 郊区 风景 
到 歌手 Thom Yorke 所 唱 的 动态 点 云 (pint clouds) 场 景 。 为 了 同时 捕捉 对 
Thom 的 歌唱 和 风景 相 结合 的 特写 ， 我 们 需要 使 用 两 种 不 同 的 设备 : 
Velodyne 公 司 的 Lidar 〈 激 光 雷 达 ) 和 Geometric Informatics 公 司 的 可 视 化 
系统 。 

Velodyne 公 司 的 Lidar 

Velodyne 是 坐落 在 美国 加 州 的 San Jose 南 部 的 一 家 公司 ， 由 两 个 人 来 
运营 ， 他 们 业余 时 间 会 参加 机 器 人 大 赛 如 Battle Bots 和 Robot Wars? 

赛 。 该 公司 生产 扬声器 、 立 体 音响 设备 和 强大 的 激光 扫描 设备 ， 包 括 我 
们 用 于 捕捉 “House of Cards” 视 频 所 需要 用 到 的 风景 和 派对 场景 的 HDL- 
64E Lidar 〈 激 光 雷 达 设 备 ) 。HDL-64E 真 正 声 名 显赫 的 原因 是 它 被 成 功 
地 应 用 于 2007 年 DARPA 城 市 挑战 赛 (Uban Challenge@) 的 一 些 交 通 工具 

中 ， 包 括 获得 冠军 的 团队 ， 成 功 地 把 它 应 用 于 环境 和 地 形 来 提高 视觉 
力 。 在 某 些 情况 下 ， 它 是 这 些 交 通 工具 的 唯一 视觉 系统 。 

Velodyne 公 司 的 HDL-64E Lidar 是 一 个 扫描 仪 ， 包 含 64 个 激光 发 射 器 
和 64 个 油光 检测 旨 。 它 围绕 一 个 圆圈 旋转 ， 以 360° 水 平方 同和 26.8° 垂 直 
方向 旋转 收集 数据 ， 每 秒 可 以 扫描 超过 100 万 个 数据 点 ， 收 集 到 接近 
5MB 的 原始 数据 。 默 认 情况 下 ，Lidar 以 600RPM (10Hz) 的 速率 旋转 ， 




















可 以 通过 系统 计算 机 的 序列 化 端口 发 送 文 本 命令 来 调整 速率 ， 速 率 范 转 
介 于 300 一 900RPM。 在 扫描 静态 风景 时 ， 为 了 达到 最 佳 分 辨 率 ， 我 们 采 
用 了 其 最 高 设置 900RPM。 

Lidar 的 可 达 范 围 随 环 境 的 反射 率 而 变化 。 例 如 ， 沥 青 路 面 可 以 拍摄 
50 米 以 内 的 范围 ， 而 汽车 和 树叶 《它们 的 反射 率 更 高 ) 可 以 达到 120 
米 。Lidar 最 小 的 可 达 范 围 是 3 英尺 ， 如 果 更 近 ， 那 么 光线 反射 回 检测 器 
太 快 ， 以 致 无 法 计量 。 

发 射 -检测 设备 被 划分 成 两 组 ， 每 组 包含 32 个 激光 和 斜 岸 (Lser bank), 
如 图 10-2 所 示 。 上 和 斜 岸 指向 斜 上 方 ， 与 仰角 的 上 半角 方向 一 致 ， 换 人 句 话 
说 ， 它 扫描 了 Lidar 的 上 半 个 垂直 视图 域 。 与 此 相反 ， 下 和 斜 岸 扫描 了 仰角 
的 下 半 个 视角 。 通 常 上 和 斜 岸 仰角 更 高 ， 因 此 对 于 处 在 远 处 的 一 个 物体 ， 
上 和 斜 岸 的 激光 脉冲 可 以 到 达 的 位 置 范 围 比 下 和 斜 岸 的 要 大 。 为 了 在 更 长 的 
距离 获取 好 的 分 辨 率 ， 上 和 斜 岸 的 激光 被 触发 的 次 数 是 下 和 斜 岸 的 被 触发 次 
数 的 三 倍 。 从 视频 的 静态 图 片 中 可 以 看 到 这 种 方式 对 我 们 的 数据 所 产生 
的 影响 ， 如 图 10-3 所 示 。 

Lidar 通 过 发 射 一 束 光 【〔 即 激光 束 〉 并 测量 该 光束 返回 的 光量 来 获取 
一 个 数据 点 。 随 着 设备 的 运行 ， 这 64 个 发 射 器 每 个 都 释放 持续 5ns 的 光 
脉冲 ;然后 使 用 透镜 对 脉冲 进行 聚焦 ， 再 用 平面 镜 把 光线 反射 到 外 界 环 
境 中 。 如 果 该 光线 在 外 界 环境 中 照射 到 茶 些 物体 ， 会 有 一 小 部 分 光线 反 
射 回 Lidar。 这 种 反射 回 的 光线 会 穿 过 激光 接收 透镜 和 太阳 光 紫 外 线 过 滤 
器 。 太 阳光 紫外 线 过 滤器 能 够 限制 太阳 所 带 来 的 光量 ， 如 果 没 有 这 个 过 
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激光 发 射 器 
(每 组 16 个 ) 


ME 
(整个 机 体 单元 以 
5~15Hz 的 速率 旋转 ) 





激光 接收 器 Caa 
(每 组 32 个 ) 


图 10-2: VelodyneZ- 8] fg Lidar. (图 像 来 源 于 Velodyne 公 司 ) 





图 10-3: 派对 场景 的 一 张 静 态 图 片 ， 通 过 Velodyne 的 Lidat 拍 摄 。 注 
意 该 图 片上 方 的 分 辩 率 更 高 ， 这 是 由 于 在 上 和 斜 岸 的 激光 的 触发 速率 更 快 
( 见 彩 图 23) 

发 射 回来 的 光线 经 过 太阳 光 过 滤器 后 ， 接 收 透 镜 会 把 返回 的 光线 聚 
焦 于 名 为 Avalanche Photodiode(APD) 的 光 检 测 装 置 上， 该 装置 生成 和 接 
收 的 光线 强度 相当 的 输出 信号 。 将 APD 的 输出 信号 进行 放大 并 把 模拟 信 
号 转换 成 数字 信号 。 然 后 把 数据 发 送 给 数字 信和 号 处 理 器 ， 该 处 理 器 决定 
返回 信号 的 时 间 。 脉 冲 的 强度 和 返回 时 间 构 成 了 一 个 数据 点 。 正 如 我 之 
前 所 说 ，HDL-64E 模 型 每 秒 创建 了 超过 100 万 的 数据 点 ， 即 每 秒 超 过 
5MB 的 原始 数据 。 

等 数据 创建 完成 后 ， 传 感 句 通过 标准 的 100BaseT 以 太 网 端口 把 结果 








数据 输出 给 用 户 。 数 据 以 等 于 旋转 速率 的 帧 速率 〈600RPM=10Hz 帧 速 
率 ) 不 断 地 从 以 太 网 端口 输出 。 以 太 网 数据 包 中 记录 了 每 个 发 射 器 - 检 
测 器 的 距离 、 密 度 和 角度 相关 的 数据 。 然 后 通过 以 太 网 包 捕 获 程序 捕获 
这 些 数据 ， 而 在 我 们 这 个 项 目 中 ， 将 会 把 捕获 的 数据 保存 到 硬盘 上 。 

Geometric Informatics 公 司 

Lidar 是 对 户外 景色 进行 可 视 化 的 神奇 工具 。 它 可 以 根据 距离 检测 一 
个 钊 币 的 大 小 ， 在 较 大 的 空间 中 工作 展 好 ， 但 是 对 于 人 上 脸 的 轮 廊 和 细节 
的 识别 ， 它 还 不 够 完善 。 为 了 对 Thom Yorke 的 歌唱 进行 特写 ， 我 们 需要 
一 些 其 他 的 东西 。 我 们 需要 有 更 好 的 视觉 。 

当 谈 到 如 何 近 距离 拍摄 特写 时 ， 我 突然 想起 在 2005 年 SIGGRAPH 会 
议 上 发 现 的 叫做 Geometric Informatics A ARRE. CHAME: 如 果 你 有 
任何 很 酷 的 数据 可 视 化 技术 ， 请 到 每 个 会 议 上 展示 这 些 技术 ， 我 有 可 能 
会 参加 这 些 会 议 。 谢 谢 。) Geometric Informatics 公 司 在 该 会 议 上 有 个 展 
台 ， 演 示 其 称 为 GeoVideo 的 系统 。 

GeoVideo 是 一 个 实时 动作 捕捉 系统 ， 它 尤其 适合 捕捉 人 脸 的 几何 图 
形 。 在 近 距 离 拍摄 时 ， 它 的 效果 明显 优 于 Lidar 系 统 ， 它 能 够 检测 到 
0.2mm 的 数据 点 ， 而 Lidar 只 能 检测 到 2cm 的 数据 点 。 有 了 GeoVideo， 我 
们 能 够 捕捉 到 Thom Yorke 唱 歌 时 的 具体 细节 。 你 在 视频 开始 看 到 的 点 云 
数据 (pint cloud data) 就 是 通过 GeoVideo 捕 捉 的 。 

如 果 你 认为 图 10-4 所 绘 的 图 看 起 来 挺 简单 ， 那 是 因为 该 设备 外 表 看 
起 来 确实 没有 很 多 特别 的 地 方 。 系 统 看 起 来 像 一 个 米色 的 箱子 ， 每 面 有 
































个 胶卷 ， 有 两 个 透镜 。 一 个 透镜 把 一 个 区 域 的 光线 投影 到 箱子 前 面 ， 而 
另 一 个 透镜 则 捕 换 该 数据 。 光 线 区 域 包 含 60 万 个 直角 的 网 格 ， 该 网 格 在 
效果 上 形成 一 个 即时 等 高 线 图 ， 投 影 到 传感器 的 前 面 。 然 后 ， 传 感 露 读 
取 每 个 直角 点 作为 一 个 数据 点 ， 然 后 把 这 些 原始 数据 以 每 秒 54MB 的 速 
率 ， 不 加 任何 改动 地 输出 到 一 台 计 算 机 上 。 传 感 费 每 秒 可 以 捕捉 180 
Ii. 

采用 GeoVideo 的 方法 把 光线 区 域 投影 到 物体 上 的 优点 是 ， 无 论 传 感 
融 前 面 需要 被 投 影 的 是 什么 东西 ， 痢 不 需要 在 其 上 国 上 一 些 网 格 ， 不 需 
要 罕 着 用 于 动作 捕捉 的 “衣服 ”， 也 不 需要 坐 在 一 个 包含 参照 物 标记 的 绿 
色 屏 幕 前 。 光 线 投影 创造 了 一 个 即时 、 可 移植 的 参照 图 ， 其 使 用 之 简单 
达到 了 令 人 难以 置信 的 程度 。 








高 频 光 源 


高 频 成 像 元 素 


图 10-4: Geometric Informatics A Zt, (图 像 来 源 : Geometric Informatics 


公司 ， 见 彩 图 24) 

GeoVideo 系 统 也 文 持 纹理 映 财 ， 这 意味 着 它 不 仅 可 以 捕获 数据 点 ， 
而 且 可 以 捕 提 这些 数据 点 之 间 的 纹理 。 综 合 而 言 ， 它 可 以 达到 对 物体 或 
者 人 脸 进 行 精确 的 3D 表 现 的 效果 。 但 是 对 于 “House of Cards” 视 频 ， 我 
们 决定 放弃 纹理 捕捉 ， 而 只 使 用 其 数据 点 。 即 使 如 此 ， 我 们 还 是 进行 了 
大 量 采 样 。 其 结果 是 你 在 视频 开场 看 到 的 Thom Yorke 的 数字 化 的 “点 
云 ”。 该 图 像 看 起 来 和 Thom Yorke 并 非 完全 一 致 ， 而 是 像 个 数字 化 的 头 
像 或 者 精 姑 一 一 人 宇 少 ， 我 觉得 是 这 样 。 看 了 两 个 版 本 的 数据 一 一 包含 纹 
理 的 和 不 包含 纹理 的 一 一 我 认为 不 使 用 纹理 的 那个 版 本 看 起 来 更 有 趣 。 
有 了 纹理 ， 他 看 起 来 有 点 像 视频 游戏 中 的 一 个 角色 。 有 时 抛弃 一 些 数据 
会 使 可 视 化 效果 更 美丽 。 





PY PE a IB De AR ANY DLS 


值得 一 提 的 是 ， 自 从 为 这 部 影片 工作 后 ， 我 开始 对 在 同一 个 项 目 上 
使 用 多 个 数据 捕捉 系统 变 得 很 感 兴趣 。 混 合 技术 在 创造 力 上 可 以 产生 事 
半 功 倍 的 效果 。 我 们 本 来 可 以 只 使 用 Lidar 系 统 或 者 GeoVideo 系 统 来 折 
摄 整 部 影片 ， 但 是 我 很 高 兴 我 们 采取 了 不 同 的 方式 。 这 可 能 使 项 目 更 复 
杂 ， 但 是 它 使 我 们 变 得 更 具有 创造 性 。 对 于 我 们 需要 捕捉 的 东西 ， 它 也 
给 我 们 带 来 了 更 多 的 灵活 性 。 

在 寻找 设备 方面 ， 你 也 可 以 从 我 的 经 验 中 获取 一 些 教训 。 第 一 ， 如 
果 要 为 数据 可 视 化 寻找 设备 ， 那 么 要 找 遍 每 个 地 方 。 有 很 多 令 人 兴奋 的 
传 感 技术 被 开发 出 来 但 却 从 未 使 用 过 。 如 果 你 准备 启动 一 个 可 视 化 项 
目 ， 首 先 在 贸易 展览 上 或 者 你 所 在 地 的 大 学 做 一 些 在 线 调研 。 确 认 是 否 
有 新 的 、 你 未 曾 考虑 过 的 方式 可 以 捕捉 数据 。 不 同 的 设备 可 能 会 给 你 的 
工作 增加 新 的 主题 或 者 显示 出 你 之 前 没有 看 到 的 数据 。 总 之 ， 尽 力 去 寻 
找 可 以 给 人 震撼 的 可 视 化 技术 。 

第 二 个 结论 是 一 个 警告 : 如 果 你 只 使 用 一 种 设备 ， 那 么 你 的 工作 看 
起 来 可 能 仅仅 是 该 设备 的 演示 。 如 果 我 们 只 使 用 Lidar 来 创造 *House of 
Cards” 视 频 ， 我 有 点 怀疑 该 视频 是 不 是 会 成 为 “Lidar 视 频 *。 通 过 同时 使 
用 GeoVideo 系 统 和 Lidar 系 统 ， 最 终 产 品 不 会 被 贴 上 某 个 产品 的 标签 。 
单一 工具 是 无 法 定义 该 作品 的 。 混 合 使 用 两 种 数据 捕获 系统 使 得 该 视频 
后 面 的 故事 变 得 更 有 趣 。 



































数据 





在 我 讨论 拍摄 之 前 ， 我 想 先 展示 一 些 样本 数据 。 这 些 数据 其 实 非 常 
简单 。 以 下 是 我 从 Thom Yorke 的 歌唱 数据 中 任意 抽取 的 三 个 数据 点 。 它 
们 在 文件 2067.csv 中 ， 它 是 该 视频 的 第 1067 帧 。 因 为 每 秒 包 含 30 帧 ， 而 
且 第 一 个 帧 是 1001.csv， 这 些 数 据点 可 以 在 视频 播放 约 36 秒 时 看 到 。 你 
可 以 在 GCode 网 站 上 看 到 这 个 数据 文件 ， 以 及 一 些 其 他 的 帧 : 

70.05, 162.48, -79.32, 122 





70.23, 165.26, -78.82, 112 

70.46, 168.00, -77.55, 95 

这 些 数 据 以 x,y,z) 的 强度 格式 表示 。 我 们 捕捉 到 的 所 有 数据 最 终 
都 转化 为 这 种 格式 。 

(x,y,z) 值 是 相对 测 距 。GeoVideo 系 统 和 Lidar 系 统 相 似 ， 包 含 
(0, 0, O 点， 基于 该 点 构建 所 有 其 他 点 。 因 此 ，70.46 是 指 该 点 在 x 
轴 距 离 0 点 是 70.46 个 单元 距离 。 你 可 以 任意 扩展 这 些 点 。 其 强度 范围 是 
MO 0% 白色 〉 到 256 (100%A f) 。 

在 GCode 网 站 ， 你 可 以 找到 Thom 歌 唱 的 2000 帧 有 效 数据 文件 ， 它 们 
组 成 刚刚 超过 1 分 钟 的 视频 。 也 可 以 访问 音频 数据 。 我 们 还 包含 了 两 个 
静态 景观 的 有 效 数据 文件 ， 城 市 及 其 尽头 的 小 路 。 它 们 在 可 视 程序 所 在 
的 压缩 文件 HoC_DataApplications_v1.0.zip 中 。 





捕捉 数据 ， 即 “拍摄 ” 


2008 年 5 月 ， 我 们 在 佛罗里达 州 的 Palm Beach 县 花 了 一 个 周末 还 多 的 
时 间 和 采集“House of Cards” 视 频 的 点 数据 。Radiohead 那 时 正在 那里 巡 
演 ， 而 且 他 们 为 了 减少 巡演 时 的 旅行 ， 想 要 拍摄 音乐 视频 。 想 要 了 解 该 
产品 的 幕后 花架 ， 请 在 GCode 网 站 检索 本 章 最 开始 处 提 到 的 “Making 
Of 视频 。 

户外 Lidar 拍 摄 

我 们 到 达 佛 罗 里 达州 之 后 所 做 的 第 一 件 事 就 是 在 制 片 小 组 租 的 一 辆 
旧 面 包车 的 后 面 安 装 上 Lidar。 我 们 使 用 该 面包 车 来 捕捉 在 视频 中 看 到 的 
静态 的 景观 数据 ， 如 城市 及 其 尽头 的 小 路 。 

不 像 DARPA 城 市 挑战 赛 的 汽车 ， 我 们 没有 把 Lidar 放 到 汽车 的 上 方 ， 
而 是 把 它 倾斜 了 90? 度 ， 然 后 装 到 面包 车 的 后 面 。 这 意味 着 激光 可 以 年 
直 扫描 环境 。 如 果 对 这 种 拍摄 方式 感到 困惑 ， 你 可 以 想象 一 个 灯塔 倾斜 
在 一 边 ， 粘 在 车 的 后 面 ， 像 一 个 管道 的 尾巴 。 这 意味 着 激光 器 从 街道 旋 
转 扫 描 到 天 空 ， 然 后 再 回来 。 每 分 钟 这 样 反复 旋转 900 次 。 

我 们 这 么 做 是 因为 它 能 够 提供 非常 高 分 辨 率 的 区 域 扫描。 而 且 事 实 
上 ， 在 后 期 处 理 中 ， 我 们 从 64 条 激光 中 只 分 离 出 一 条 激光 ， 这 是 因为 它 
们 都 非常 有 效 地 扫描 了 同样 的 东西 。 随 着 面包 车 向 前 行驶 ， 激 光 每 次 旋 
转 都 扫描 了 环境 的 唯一 独特 部 分 。 

图 10-5 的 景观 就 是 通过 这 种 技术 捕捉 的 。 面 包车 径直 行驶 在 街道 的 

















HR Ne AME EA GA GT AS EE? 这 是 因为 Lidar 是 挂 在 背 
面 ， 而 且 是 朝 下 的 。 你 





可 能 还 会 注意 到 在 公寓 塔楼 边 上 有 曲线 ， 这 是 由 
于 面包 车 的 行驶 和 Lidar 的 旋转 角度 交 苇 在 一 起 。 
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图 10-5: Velodyne Lidat 的 一 个 激光 器 捕捉 到 的 数据 ( 见 彩 图 25) 


扣 摄 过程 进 行 得 非常 顺利 。 制 片 组 已 经 找 好 了 位 置 ， 因 此 我 们 径直 
开 到 每 个 场景 ， 并 顺序 扫描 它们 。 当 我 们 到 达 了 想 要 扫描 的 地 方 ， 我 们 





就 会 放 慢 速度 到 10mph 左 右 ， 司 机 会 尽量 把 车 开 得 平稳 ， 然 后 我 们 惑 开 
台 记 录 。 

和 摄像 机 不 同 ，Lidar 不 会 局 动 和 集 止 。 相 反 ， 它 总 是 运转 大 ， 不 断 
地 旋转 和 输出 数据 。 因 此 ， 我 们 不 需要 打开 或 关闭 它 ， 而 只 需要 知道 什 
么 时 候 开 始 记录 数据 。 当 要 开始 记录 数据 时 ， 我 们 的 导演 助理 Larry 





Zience 会 以 对 Velodyne 的 现场 工程 师 Rick Yoder 喊 “开动 电脑 ”作为 指示 ， 
Rick Yoder 就 会 开始 收集 数据 点 。 〈 这 对 于 一 些 制 片 组 成 员 而 言 ， 显 得 
有 些 可 笑 ， 因 为 通常 导演 会 说 “开动 摄像 机 "”。) 然后 ，Rick 点 击 他 的 笔 
记 本 电脑 上 的 一 个 按键 ，Lidar 数 据 就 开始 输出 到 他 的 硬盘 上 。 当 Larry 
喊 “ 停 时， 我 们 就 停止 记录 。 

后 来 ，Rick 发 给 我 一 封 信 ， 是 关于 和 制 片 组 一 起 工作 的 感受 : 

我 内 心 的 一 个 感受 就 是 这 打破 了 一 位 摄影 师 要 找到 合适 的 镜头 角度 
是 非常 困难 的 习惯 看 法 。 传 统 的 摄像 导演 不 习惯 于 从 一 堆 扫 描 中 构建 模 
型 ， 然 后 在 后 期 处 理 时 操纵 相机 的 角度 。 他 们 会 说 : “我们 想 要 把 相机 
从 这 里 移 到 那里 ， 然 后 向 上 移动 大 约 20 英 尺 ， 而 镜头 保持 约 45"。? 我 们 
会 说 :“ 好 极 了 。 我 们 只 需要 把 扫描 器 放 在 场景 中 间 ， 你 就 可 以 在 后 期 
处 理 中 这 么 做 。” 

图 10-6 显 示 了 另 一 处 景观 。 注 意 电线 为 什么 会 是 弯 弯 曲 曲 ? 这 是 一 
个 很 简单 的 原因 : 面包 车 在 不 平滑 的 路 上 上 下 颠 艇 产生 的 自然 的 曲线 。 
通 音 ， 这 些 “ 错 误 ” 可 以 通过 陀螺 仪 、 加 速 器 以 及 其 他 精密 设备 来 避免 。 
在 我 们 这 种 情况 下 ， 我 们 想 要 这 样 的 “错误 ”。 不 但 处 理 起 来 代价 更 低 、 
操作 更 简单 ， 而 且 它 使 得 数据 也 更 有 趣 〈 至 少 我 这 样 认为 ) 。 完 美 是 值 
得 赞美 的 目标 ， 但 是 它 并 非 总 是 最 具有 创造 性 。 


















































图 10-6: Velodyne Lidat 捕 提 到 的 另 一 幅 景 观 图片 ( 见 彩 图 26) 

室内 Lidar 拍 摄 

我 们 还 把 Lidar 用 于 室内 拍摄 影片 背景 。 它 被 用 于 捕捉 视频 中 3: 30 和 
3: 55 时 刻 的 派对 场景 。 和 景观 场景 不 同 ， 我 们 在 这 部 分 拍摄 中 使 用 了 
所 有 的 64 个 Lidar 激 光 器 的 数据 ， 而 不 是 仅仅 一 个 。 这 是 由 于 派对 场景 是 
动态 的 一 一 Lidar 每 次 旋转 ， 点 数据 都 会 随 之 变化 一 一 这 意味 着 这 些 点 数 
据 在 视频 的 每 个 帧 都 有 变化 。 因 此 ， 你 看 见 场景 中 的 人 们 正在 运动 。 在 
这 部 分 拍摄 中 ， 我 们 使 用 了 正常 水 平 放置 的 Lidar， 这 是 数据 以 水 平 线 方 
式 显示 的 原因 。 

为 了 创建 派对 场景 ， 我 们 从 邻近 的 学 校 招募 了 一 些 电 影 专业 的 学 

。 有 些 学 生 精 心 打扮 了 一 番 ， 认 为 他 们 会 出 现在 Radiohead 视 频 中 ， 
































这 和 古 他 们 展现 目 己 的 机 会 ， 他们 几乎 没有 意识 到 ， 事 实 上 我 们 真正 需要 
的 只 是 他 们 的 号 体 形态 。 抱 歉 ， 估 计 们 ! 

如 果 你 数 一 下 图 10-7 所 示 图 片 的 水 平 线 ， 你 会 发 现 有 64 条 。 注 意 为 
什么 图 片 的 上 半 部 分 更 亮 ? 那 是 由 于 Lidar 上 方 的 32 个 激光 堪 比 下 方 的 触 
发 得 更 快 。 正 如 我 之 前 所 述 ，Lidar 这 种 构建 方式 是 由 于 它 通 第 扫描 很 大 
的 地 形 空间 ， 要 到 达 水 平 升 起 的 地 方 需要 更 高 的 分 辨 率 。 











图 10-7: 派对 场景 的 一 个 静态 图 片 ，Velodyne Lidar 捕 捉 ， 数 据 有 64 
条 线 ， 每 条 线 由 Lidat 的 一 个 激光 器 生成 ( 见 彩 图 27) 

遗憾 的 是 ，Lidar 的 分 辨 率 很 低 ， 每 个 数据 点 约 有 2cm， 这 也 是 图 片 

看 起 来 很 模糊 的 原因 。 在 我 看 来 ， 这 一 点 反倒 给 视频 增添 了 一 丝 韵 味 。 

派对 通常 是 由 那些 不 太 认 识 的 人 组 成 的 ， 而 这 种 可 视 化 方式 能 反映 出 这 


种 隔离 的 “味道 "。 然 而 ，Lidar 的 低 分 辩 率 无 法 满足 对 Thom Yorke 扣 特 
写 。 因 此 ， 我 们 使 用 GeoVideo 系 统 。 

室内 GeoVideo 拍 摄 

Thom Yorke 的 点 云图 、 他 的 “爱人 ”( 由 Lauren Maher 扮 演 ， 在 视频 
的 1: 05 时 刻 你 第 一 次 看 到 她 ) 以 及 一 些 其 他 场景 都 是 通过 Geometric 
Informatics 公 司 的 GeoVideo 系 统 采集 的 。 

GeoVideo 系 统 能 够 实现 令 人 震撼 的 现实 主义 。 如 果 你 看 了 Geometric 
Informatics 公 司 的 网 站 上 的 演示 视频 ， 你 会 发 现 其 图 片 的 质量 比 我 们 视 
频 中 的 点 云 要 记得 多 。 它 的 可 视 化 也 没有 我 们 视频 中 过 到 的 干扰 和 错 
Re 

我 们 的 视频 质量 低 的 原因 是 我 们 故意 这 么 做 。 寻 演 James Frost 并 不 
想 要 一 个 完美 的 Thom Yorke 的 视觉 化 里 ， 他 想 要 看 到 的 是 Thom Yorke 
Rin. Zain COLA10-8) 。 当 观看 视频 的 开场 时 ， 在 我 眼 
里 ， 他 不 是 Thom Yorker 这 个 人 ， 而 是 这 位 歌手 的 灵魂 。 我 们 在 机 器 里 
看 见 的 是 幻影 。 








A 10-8: 歌手 Thom Yotke 在 Radiohead 视 频 中 的 一 张 静 态 图 片 ( 见 彩 图 
28) 

可 视 化 中 数据 质量 的 低下 和 频繁 错误 ， 也 使 得 获取 数据 看 起 来 很 困 
难 。 这 种 似是而非 的 困难 增强 了 故事 性 。 一 张 清晰 的 图 片 无 法 表达 我 们 
想 要 表达 的 意思 。 

在 后 期 数据 处 理 中 ， 我 们 没有 对 数据 中 的 干扰 进行 干预 ， 相反 地 ， 
我 们 为 数据 集 创 建 干 扰 。 制 万 公司 购买 了 很 多 道具 来 打破 现场 的 数据 ， 
包括 把 一 些 很 小 的 镜子 粘 到 一 面 有 机 玻璃 上 ， 在 扫描 左前 酒 一 些 羽 毛 ， 
在 Thom 前 把 水 倒 在 有 机 玻璃 上 来 制造 “流水 ”景象 。 最 后 ， 用 镜子 把 数 
据 干扰 成 无 组 织 的 方式 效果 最 佳 ， 羽 毛 在 数据 干扰 上 的 效果 差强人意 ; 
而 水 吸收 光线 ， 在 数据 集中 只 是 生成 一 些 空白 点 。 





室内 拍摄 化 了 大 约 10 个 小 时 的 时 间 ， 包 含 GeoVideo 和 Lidar。 对 于 所 
有 包含 Thom 的 场景 ， 为 了 防止 数据 丢失 ， 我 们 很 小 心地 把 数据 存储 到 
了 多 个 人 硬盘 上 ， 因 为 担心 这 些 数据 万 一 丢失 ， 我 们 可 能 就 无 法 再 担 摄 出 
同样 的 效果 了 。 


处 理 数据 


所 有 的 数据 都 捕捉 完成 后 ， 开 始 了 数据 处 理工 作 。 我 们 做 的 第 一 件 
事 是 把 原始 的 Lidar 数 据 发 送 到 510 Systems 公 司 ， 一 家 在 加 州 伯 克利 的 
工程 公司 ， 对 处 理 这 种 类 型 的 数据 有 很 多 经 验 。 该 公司 把 该 项 目 分 配给 
其 内 部 的 Lidar 数 据 大 师 Pierre-Yves Droz。 他 在 把 Lidar 数 据 转换 为 可 使 
用 格式 领域 是 专家 。 

我 们 把 数据 以 DVD 方式 邮寄 给 Pierre 之 后 ， 他 为 我 们 做 了 两 件 事情 。 

首先 ， 对 于 景观 场景 ， 他 把 一 个 激光 器 和 其 他 63 个 激光 器 分 离开 ， 
为 这 个 激光 器 的 点 创建 了 一 个 数据 集 。 其 次 ， 他 把 所 有 的 原始 Lidar 数 
据 ， 包 括 动态 派对 场景 数据 ， 都 转换 为 包含 〈xyz) 和 强度 的 很 多 单 点 
数据 。 

其 次 ， 为 了 对 原始 数据 进行 转换 ，Pierre 需 要 知道 每 组 Lidar 激 光 发 射 
医 和 检测 峰 的 精确 位 置 和 方 同 。 计 算 信息 是 由 Velodyne 公 司 提供 的 ， 对 
于 每 个 Lidar 单 元 ， 其 参数 都 不 一 样 。Pierre 还 使 用 面包 车 的 速度 来 帮助 
计算 Lidar 在 真实 世界 中 旋转 时 运动 有 多 快 。 

最 后 ， 我 们 提供 给 510 Systems 公 司 大 约 4GB 的 原始 数据 ， 却 生成 了 
接近 50GB 处 理 后 的 .obj 格 式 的 文本 数据 。 




















后 期 数据 处 理 


我 们 一 处 理 完 数据 ， 就 把 它 交 给 The Syndicate 公 司 ， 在 加 州 Santa 
Monica 的 一 个 视觉 效果 工作 室 。 它 把 场景 泻 染 成 二 维 ， 并 添加 了 粒子 流 
效果 ， 在 视频 开始 约 1 分 钟 左右 ， 你 可 以 看 到 该 效果 。 

The Syndicate 工 作 室 的 粒子 专家 Brandon Davis 致 力 于 这 个 项 目 。 他 
发 给 我 一 封 邮件 ， 告 诉 我 为 什么 这 个 项 目 很 不 寻常 : 

一 开始 ， 从 可 视 化 角度 考虑 ，Radiohead 项 目 有 很 多 不 寻常 的 可 能 
性 。 有 了 生动 的 数据 集合 ， 你 就 会 充满 奇怪 的 “书后 ”: 依赖 于 视觉 的 数 
据 在 视觉 上 却 可 以 看 做 独立 的 。 这 真 的 是 “第 二 景象 "， 能 够 融 一 个 人 欣 
赏 其 看 到 的 ， 并 从 不 同 角 度 来 享受 这 场 视觉 感 室 ， 其 露 景象 的 差距 。 这 
打开 了 一 些 真 正 独 特 的 图 像 大 门 。 

Brandon Davis 继 续 描述 他 是 如 何 处 理 * 蒸 发 ”效果 ， 你 将 会 在 视频 中 
注意 到 这 些 效果 : 

客户 想 要 随 着 时 间 而 退化 的 数据 集 ， 似 乎 这 些 点 正在 被 一 场 虚拟 的 
风 刊 走 。 从 刚 开 始 ， 我 们 看 的 束 是 两 种 显著 不 同 的 数据 类 型 一 一 环境 的 
静态 Lidar 点 云 和 歌手 Thom Yorke 的 动态 生动 的 点 云 。 我 们 认为 后 者 操 
纵 起 来 会 更 有 挑战 性 。 静 态 的 数据 集 相 对 更 容易 操纵 ， 因 为 所 有 你 需要 
做 的 是 随 着 时 间 取 代 这 些 点 ， 因 此 我 们 知道 选择 性 地 触发 受 重 力 场 影响 
的 部 分 数据 集 不 会 太 困难 ， 从 而 创造 出 一 种 建筑 物 和 树 都 随 着 喧嚣 的 巨 
浪 一 起 蒸发 的 效果 。 正 如 我 们 所 预测 的 ， 在 静态 数据 集 上 生成 该 效果 只 
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个 点 在 茶 个 特定 帧 的 内 部 ， 束 把 该 点 传 给 粒子 系统 ， 这 样 它 可 以 自由 地 
通过 噪音 区 域 ， 人 否则 筷 就 保持 静止 状态 。 这 是 非常 有 交互 性 的 ， 容 易 控 
制 ， 且 基本 上 迭代 迅速 。 

然而 ，Thom 歌 唱 的 动态 上 扣 云 到 是 力 一 回 事 。Brandon 继 续 说 : 

从 我 的 角度 看 ， 动 态 点 云 是 该 项 目的 最 大 挑战 。 虽然 你 可 以 使 用 和 
静态 数据 集 一 样 的 方法 ， 但 是 动态 数据 集 有 其 自 喘 特有 的 问题 ， 它 会 刷 
新 每 个 帧 ! 只 要 你 发 布 一 个 点 ， 并 把 它 传 给 一 个 粒子 系统 ， 原 始 的 源 点 
就 会 反弹 到 新 的 位 置 ， 基 本 上 重新 生成 每 个 帧 。 因 此 ， 虽 然 我 可 以 指定 
数据 点 在 他 的 明子 上 落下， 然后 再 飞 走 ， 随 后 的 每 个 帧 都 有 一 个 新 的 后 
来 取代 飞 走 的 那个 点 。 

最 后 ，The Syndicate 找 到 了 一 个 简单 的 方法 ， 使 用 2D 面 具 增 加 动态 
点 云 的 衰减 效果 : 它 在 3D 点 云 上 给 面具 添加 了 一 层 吹 走 的 粒子 。 这 意 
味 着 不 存在 像 静态 景观 那样 完美 的 一 对 一 的 粒子 衰变 ， 但 是 我 认为 这 些 









































变化 是 无 法 察觉 的 。 
当 我 咨询 导演 James 为 什么 他 在 视频 初始 时 增加 了 粒子 袁 变 的 效果 ， 
他 说 : 





“House of Cards” 本 质 上 是 一 衣 爱 情歌 曲 ， 和 爱情 或 友情 一 样 ， 在 那 
里 有 关系 破裂 。 它 们 不 仅仅 停止 ， 而 是 有 一 系列 的 事件 活动 ， 一 种 催化 
剂 导致 它们 终止 或 豪 落 。 对 于 视频 ， 我 想 在 更 大 范围 内 探索 这 个 主题 。 
在 我 看 来 ， 在 生活 中 我 们 对 于 周围 的 世界 知之 甚 少 。 我 的 想法 是 基础 设 
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们 作为 人 类 已 经 达到 对 什么 都 满不在乎 的 地 步 。 但 是 ， 最 终 该 事件 会 产 
生 连 锁 效 应 ， 而 且 最 终 会 在 我 们 个 人 层面 上 市 来 影响 。 金 融 机 构 正 在 发 
生 的 事 就 是 一 个 最 佳 的 例子 ， 一 家 银行 倒闭 了 ， 但 是 除非 你 把 钱 存在 那 
里 ， 人 否则 你 就 不 会 去 关心 它 。 然 后 你 的 钱 所 在 的 银行 也 倒 团 了 。 

当 完 成 了 所 有 的 后 期 处 理 ， 编 辑 委员 Nicholas Wayman Harris 和 我 们 
一 起 编辑 了 甬 辑 。 视 频 终于 完成 了 。 




















及 布 视 频 


“House of Cards” 视 频 是 在 G 公 司 网 站 上 首 映 的 第 一 个 音乐 视频 ， 它 
在 2008 年 7 月 11 日 发 布 。G 公 司 站 点 包含 了 一 些 该 视频 的 数据 ， 因 此 你 
可 以 创建 自己 的 可 视 化 以 及 3D 数 据 可 视 化 工具 。G 公 司 的 创新 实验 室 开 
发 了 这 个 站 点 。 

该 可 视 化 工具 是 由 我 和 朋友 Aaron Meyers 一 起 用 Flash 开 发 的 。 它 允 
许 观看 者 在 播放 视频 期 间 实 时 旋转 云 点 数据 。 对 我 来 说 ， 这 正 是 数据 美 
丽 之 处 。Flash 应 用 允许 你 实时 从 任意 视角 查看 视频 ， 这 是 传统 的 视频 记 
录 所 不 能 及 的 。 你 可 能 旋转 Thom Yorke 的 脸庞 ， 这 样 他 从 远 处 望 着 你 ， 
有 效 地 把 持 住 他 的 脸 作 为 你 的 面具 ， 你 就 可 以 透 过 他 的 眼睛 。 在 我 看 
来 ， 这 种 效果 非常 强大 。 它 使 得 音乐 视频 在 某 种 方式 上 变 得 有 形 ， 我 怀 
疑 很 多 人 都 没有 过 这 种 体验 。 

我 们 还 发 布 了 一 些 数据 (把 数据 开源 ) 以 及 通过 Processing 编 程 语言 
开发 的 视频 创建 工具 。 然 后 ， 我 们 鼓励 人 们 下 载 数据 来 创建 他 们 自己 的 
视频 。 

我 想 为 视频 创建 工具 分 享 源 代码 ， 以 便 展示 通过 Processing 创 建 你 自 
己 的 视频 时 多 么 简单 。 以 下 是 输出 Thom Yorke 歌 唱 的 帧 的 代码 : 

















import processing.opengl.*; 

int frameCounter-1; //Declare a variable to store which frame 
we're dealing with 

void setup () { //Here we set up the program 

size (1024, 768, OPENGL); //This is the render size.We'll use 











OpenGL to draw as 
//fast as possible 


























//frameRate (30) ; //Uncomment to watch the animation at 30 frames 
per second. 
strokeWeight (1); //Draw lines at a width of 1, for now. 


} 

void draw () { //Here we state the things we're going to do every 
frame 

background (00; //We'll use a black background 
translate (width/2, height/2) ; //The data has 0, 0, 0 at the 
center and we want to 
//draw that point at the center of our screen 
































translate (-150, -150);  //Let's adjust our center slightly 

scale (2) ; //Let's draw things bigger 

//rotateY (frameCounter/50.0f) ; //If uncommented,this makes the 
data rotate over 

/ / time 

/ /rotateY (mouseX/150.0) ; //T£ uncommented,this uses the mouse's 











horizontal 
//location to adjust the rotation 
String[]raw-loadStrings (frameCounter+".csv") ; //Here we load the 
current frame 
//data into an array 
for(int i-0; i<raw.length; i++) ( //Now we loop through each line 


























//raw data 




















String[]thisLine=split (raw{[i], 's *2$ //For each line we're going 
separate 

//each parameter 

float x-float(thisLine[0]) ; //Now we make a decimal variable for 
each 


/ /Parameter 
Float y-float(thisLine[1]) ; 
Float z-float(thisLine[2]) ; 
int intensity-int (thisLine[3]) ; 
stroke(intensity*1.1, intensity*1.6, 200, 255); //We set the color 
of each point to 
//correspond to the data's 





— 




































































//intensity value 
line(x,y,z,x*1,. y+1, z+1);  //Here we draw a little line for each 
point; this 





//is much faster than a more complex object and//we'll be drawing 
a lot of them 




















frameCounter-**; //Add one to the frame variable to keep track of 
what frame we're 

//currently on 
if(frameCounter>2101) { //If we get to the end of the data we'll 





























exit the 

//program 

exit © ; 

println ("done") ; 

} 

//saveFrame ("renderedFrames/"+frameCountert+t".tga") ; //This would 
be a way to save out 

//a frame 

//*remember you're saving files to your harddrive! * 


} 

















它 没有 数据 那么 美 〈《 毕 竟 本 书 不 是 《代码 之 美 》) ， 但 是 它 的 效果 
很 好 。 正 如 代码 所 示 ， 它 允许 你 从 头 到 尾 观 看 Thom Yorke 的 歌唱 ， 但 是 
有 一 些 修改 ， 你 可 以 定制 这 个 过 程 。 以 下 是 两 个 修改 实例 ， 基 于 之 前 的 
代码 做 出 注释 。 第 一 个 修改 实例 是 : 














rotateY (frameCounter/50.0f) ; 





把 绘图 函数 的 起 始 部 分 的 这 行 代码 取消 注释 ， 将 会 导致 Thom 的 脸 随 
独 帧 的 增加 而 向 y 轴 旋转 。 


第 二 个 修改 实例 是 : 





rotateY (mouseX/150.0) ; 





把 绘图 函数 起 始 部 分 的 这 行 代码 取消 注释 ， 人 允许 你 对 鼠标 函数 进行 
旋转 。 你 现在 可 以 随 着 帧 的 输出 移动 Thom 的 脸 。 

我 相信 你 能 够 想到 一 些 其 他 方面 来 修改 。 很 多 人 做 了 我 从 来 没有 想 
到 的 事情 ， 这 正 是 我 期 望 的 。 对 所 有 的 帧 进行 泻 染 〈 把 最 后 一 行 取消 注 
PE) 并 放 在 一 起 生成 一 个 视频 ， 就 可 以 制作 类 似 QuickTime Pro. Final 
Cnut 或 After Effects 这 样 的 节目 了 。 其 他 人 创建 的 一 些 视频 令 人 印象 深 





刻 。 在 Youtube 的 “House of Cards” 组 
(htp: /www.youtube.com/group/houseofcards) 上 看 到 这 些 视频 。 
这 一 切 真 的 都 非常 简单 ， 只 需要 在 开始 实践 时 有 一 些 美 丽 的 数据 。 


结束 语 








在 写本 章 时 ， 我 有 7 个 想法 ， 在 你 通过 美丽 的 方式 来 捕获 和 表示 自己 
的 数据 时 可 能 会 觉得 有 用 : 

1. 通 过 新 的 方式 看 普通 的 东西 会 使 它 变 得 很 特别 。 

你 不 需要 扫描 月 亮 、 热 带 岛屿 或 者 一 位 流行 模特 来 获取 美丽 的 数 
据 。 通 过 新 的 方式 来 观察 普通 的 东西 可 以 产生 相同 的 效应 。 对 于 “House 
of Cards” 视 频 来 说 ， 我 们 扫描 了 一 个 人 的 脸 以 及 一 些 郊 区 建筑 。 通 过 新 
的 方式 来 观察 这 些 平凡 的 东西 ， 以 及 通过 新 的 可 视 化 技术 ， 我 们 可 以 使 
事情 变 得 有 趣 。 

2. 讲 一 个 故事 。 

显然 ， 如 果 你 有 一 首 令 人 震撼 的 歌 ， 它 对 你 的 工作 会 有 帮助 ; 但 
是 ， 也 尽 可 能 地 根据 你 的 数据 讲述 故事 。 给 这 些 数 据 增加 一 些 含义 要 比 
仅仅 展示 数据 更 加 生动 。 

3. 使 用 多 种 可 视 化 技术 比 单一 技术 会 更 有 趣 。 

正如 我 之 前 所 述 , “House of Cards” 视 频 是 通过 多 种 技术 如 Velodyne 
Lidar 和 GeoVideo 系 统 ， 以 及 粒子 可 变 后 期 处 理 效果 而 变 得 更 加 强大 。 
如 果 我 们 所 做 的 所 有 都 是 可 视 化 原始 Lidar 数 据 ， 那 么 它 就 不 会 很 有 趣 。 

4. 想 想 数 据 ， 而 不 是 真实 世界 。 

当 我 们 给 有 机 玻璃 板 增加 一 些 镜面 ， 在 Thom 唱 歌 时 把 它 移 到 他 脸 前 
时 ， 我 们 没有 想 在 视频 相机 里 它 会 是 什么 样子 。 数 据 即 是 产品 。 当 你 看 

















一 些 你 想 可 视 化 的 东西 时 ， 想 想 你 可 以 从 中 获取 的 数据 。 

换 句 话说 ， 尝 试 使 一 件 很 离奇 的 事情 变 成 现实 ， 然 后 感受 这 种 现 
实 。 这 会 使 你 的 故事 古怪 离奇 。 音 乐 视频 通常 描述 离奇 的 一 面 。 问 问 自 
己 ， 你 该 如 何 操作 数据 使 得 它 更 稀奇 、 有 趣 和 与 众 不 同 ? 

5. 不 需要 使 用 全 部 数据 。 

我 们 使 用 GeoVideo 系 统 来 扫描 Thom Yorke 生 成 的 数据 超出 我 们 想 要 
的 。 通 过 大 范围 抽样 ， 我 们 生成 了 更 有 趣 的 数据 点 。 我 们 想 要 的 不 是 一 
张 照片 。 

6. 把 数据 开源 。 

通过 使 得 其 他 人 可 以 拥有 这 些 数据 并 创建 他 们 自己 的 “House of 
Cards” 视 频 版 本 ， 使 得 每 个 人 可 以 创建 自己 认为 最 美丽 的 视频 。 每 个 人 
总 是 对 于 什么 是 最 好 的 有 自己 的 观点 。 让 人 们 “纵容 ”自己 的 观点 。 如 果 
你 见 到 他 们 的 作品 ， 你 会 感到 高 兴 且 满足 ， 你 可 能 永远 都 不 知道 ， 有 些 
人 做 了 一 些 意 想不到 的 事情 。 这 是 件 好 事 。 已 经 有 超过 10 万 人 从 GCode 
网 站 下 载 了 数据 并 创建 了 一 些 伟大 的 视频 。 

7. 和 Radiohead 乐 队 一 起 工作 。 

可 能 显得 有 点 不 够 严肃 ， 但 是 毫 无 疑问 ， 我 们 很 幸运 能 够 和 世界 上 
最 有 创造 性 的 乐队 一 起 工作 。 而 且 不 仅仅 是 他 们 ， 而 是 整个 团队 。 只 有 
和 一 些 无 比 卓越 的 天 才 一 起 合作 才 使 得 这 个 视频 变 成 可 能 ， 包 括 James 
Frost， 以 及 Velodyne、Geometric Informatics、510 Systems 和 The 


Syndicate 的 员工 。 和 这 些 比 你 更 具 乔 芒 的 人 合作 ， 你 的 项 目 会 受益 民 



































第 11 章 ” 郑 市 数据 可 视 化 
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数据 因 何 而 美丽 ， 它 又 来 自 哪 里 

美丽 的 数据 有 趣 、 有 用 、 公 开 且 免费 。 数 据 必须 使 它 的 收集 者 、 观 
众 或 者 某 个 机 构 能 够 对 它 感 兴趣 。 它 必须 对 那些 感 兴 趣 收集 和 维护 这 些 
数据 的 人 有 用 ， 可 以 帮助 他 们 理解 自己 所 处 的 环境 。 当 数据 是 公开 、 免 
费 、 人 允许 查看 且 可 以 对 其 自由 辩论 时 ， 它 是 最 美丽 的 。 


这 是 一 个 关于 奥克兰 的 Crimespotting 项 目 








(htp: /oakland.crimespotting.org) 的 故事 ， 它 是 位 于 旧金山 市 的 Stamen 
Design 设 计 公司 (htp: /stamen.com) 的 一 个 研究 项 目 。Crimespotting 项 目 
( 见 图 11-1) 是 为 了 响应 当前 奥克兰 警察 局 的 犯罪 报告 的 一 个 应 用 一 
CrimeWatch(http: //gismaps.oaklandnet.com/crimewatch/) 而 开发 的 。 正 
如 很 多 其 他 项 目 那样 ，Crimespotting 在 最 初 构想 时 并 没有 有 具体 的 目标 ; 
它 的 产生 是 由 挫折 引起 的 ， 借 助 于 基础 、 技 术 性 的 研究 逐渐 成 熟 起 来 ， 
并 最 终 因 一 起 给 人 们 带 来 创伤 性 的 犯罪 事件 而 变 得 众所周知 ， 因 为 该 犯 
罪 事件 引起 了 全 国 对 该 城市 的 广泛 关注 。Crimespotting 项 目的 发 展 看 起 
来 经 历 了 典型 的 项 目 发 展 曲线 : 经 过 有 目标 的 酝酿 ， 通 常会 发 展演 化 成 
为 成 熟 的 信息 化 项 目 。 该 项 目 成 为 Stamen 设 计 公 司 的 顾问 Ben Cerveny 
所 谓 的 “信息 化 ”的 典型 例子 : 世界 上 的 数据 正 一 点 点 地 移动 到 互联 网 ， 
并 与 某 个 开源 工具 链 和 方法 论 相互 接触 和 碰撞 。 

















Oakland 


crimespotting 


图 11-1: Stamen Design 设 计 公 司 的 一 个 研究 型 项 目 一 一 奥克兰 市 的 
Crimespotting 项 目标 志 
这 个 故事 包含 三 个 部 分 。 首 先 ， 我 们 获得 了 奥克兰 警察 局 的 核心 数 
据 ， 将 其 抽取 出 来 转化 为 更 适合 于 “切片 混合 ”操作 的 某 种 格式 。 其 次 ， 
我 们 创建 了 一 个 动态 网 站 ， 对 数据 进行 公开 ， 以 便 本 地 的 居民 可 以 找到 
并 使 用 这 些 数 据 。 最 后 ， 我 们 通过 观察 这 个 网 站 如 何 发 挥 作用 ， 回 顾 最 
开始 的 设想 ， 并 答复 公众 的 反馈 意见 。 
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将 现代 的 发 布 在 线 数 据 的 方式 应 用 于 犯罪 举报 并 不 是 什么 新 主意 。 
当前 对 犯罪 的 关注 可 以 追溯 到 记者 /开发 人 员 Adrian Holovaty 在 2005 年 研 
究 的 Chicago Crime 项 目 (htp: //chicagocrime.org)。Chicago Crime 项 目 是 
GMap 混 搭 的 一 个 早期 例子 ， 它 利用 来 自 其 他 站 点 的 代码 和 数据 打造 了 
一 个 卓越 的 网 站 。 在 这 个 案例 中 ， 尚 未 文档 化 的 GMap 
API(http: //code.google.com/apis/maps/) 被 看 做 发 布 芝 加 哥 警 察 局 的 犯 
罪 报告 信息 的 基础 组 件 。 该 警察 局 本 身 的 网 站 是 由 文本 驱动 的 ， 它 刚好 
包括 了 每 个 报告 的 街道 地 址 或 十 字 路 口 。 应 用 服务 程序 Holovaty 在 夜间 
收集 报告 数据 ， 把 它们 发 布 到 动态 的 、 可 缩放 或 “滑动 * 地 图 上 。 该 服务 
作为 早期 G 公 司 2005 年 在 线 映射 的 最 佳 实践 ， 别 出 机 村 ， 是 个 非常 绝妙 
的 方法 技巧 。GMap 从 原来 的 局 限于 只 是 画图 和 展示 静态 图 片 ， 转 换 成 
为 可 以 展示 不 断 滚动 、 可 以 无 限 回应 的 地 理 数据 平台 。 

Chicago Crime 项 目 不 是 唯一 的 。 几 乎 是 在 同一 期 间 ， 开 发 者 Paul 
Rademacher 开 发 了 Housing Maps(http: /housingmaps.com) 项 目 ， 它 类 似 
于 Chicago Crime 项 目 ， 是 公寓 出 租 数 据 和 可 视 化 浏览 的 组 合体 。 在 其 之 
前 一 年 ，Michael Frumin 和 Jonah Perretti 在 New York 艺 术 基 金 会 Eyebeam 
创建 了 FundRace 项 目 (htp: //fundrace.org)， 实 现 了 2004 年 总 统 竞选 政治 
捐款 数据 的 可 视 化 。Rich Gibson. Schuyler Erle 和 Jo Walsh 合 著 出 版 的 

(Mapping Hacks) (O'Reilly 出 版 社 ) 一 书 ， 是 一 本 关于 新 的 基于 Web 





























制图 的 技术 指南 。 针 对 这 些 事件 ， 开 展 了 很 多 在 线 活 动 ， 因 为 在 地 理 信 
息 上 下 文中 ， 新 的 信息 化 数据 集 正 在 大 刀 阔 位 地 修改 并 重新 发 布 。 这 一 
切 所 产生 的 更 广泛 的 影响 改变 了 人 们 对 地 图 的 期 望 : 人们 现在 期 望 有 新 
的 、 深 层次 的 多 规模 交互 方式 ， 作 家 Steven Johnson 称 之 为 “长 距离 变 
焦 ”(Te Long Zoom)， 一 种 包含 游戏 、 电 影 和 其 他 媒体 的 新 视野 。 

GMap 对 于 Web 地 图 领域 的 影响 是 不 可 估量 的 ， 其 中 有 两 个 原因 。 首 
先 ，GMap 做 出 了 采用 了 图 片 拼 接 的 方法 来 发 布地 图 的 决策 。 这 使 得 它 
可 以 不 用 重新 泻 染 全 部 图 片 ， 减 少 了 对 服务 器 的 压力 ， 因 而 能 够 采用 视 
觉 上 更 复杂 的 制图 技术 。 其 他 地 图 需要 效果 非常 显著 ， 才 有 资格 与 其 竞 
争 。 其 次 ， 这 个 决策 也 意味 着 最 后 的 可 视 化 效果 将 变 成 由 用 户 端的 浏览 
器 通过 动态 组 合 的 方式 完成 。 最 近 ，Jesse James Garrett 提 出 了 一 种 关于 
浏览 器 的 新 兴 技 术 一 一 Ajax (异步 JavaScript 和 XML)， 这 一 术语 后 来 变 
得 尤为 重要 。Ajax 技 术 说 明了 现代 的 浏览 器 已 经 有 足够 高 的 质量 ， 且 当 
它 与 标准 足够 兼容 之 后 ， 人 们 开始 重新 开始 对 动态 HTML 和 JavaScript 感 
兴趣 。 采 用 这 种 方式 后 ， 原 始 数据 的 传输 从 制图 展示 中 独立 了 出 来 ， 在 
一 个 单独 的 频道 中 完成 。 而 在 此 之 前 ， 其 采用 的 方式 是 在 服务 器 端 完成 
地 图 的 生成 、 地 址 查找 和 确定 方位 等 处 理 之 后 ， 将 所 有 的 数据 打包 成 一 
张 图 片 并 将 整 张 图 片 作为 返回 结果 展示 给 Web 访 问 者 。 

把 地 图 分 块 、 接 口 和 数据 组 装 放 在 客户 端 完 成 ， 这 一 点 使 得 小 开放 
团队 创建 非常 复杂 的 基于 地 理 的 浏览 应 用 变 成 可 能 ， 这 也 正 是 在 我 们 和 
Web 四 年 交互 过 程 中 所 看 到 的 。 






































所 有 这 一 切 构成 了 从 奥克兰 现 有 的 、 获 得 商业 授权 的 犯罪 地 图 产品 
CrimeWatch 中 抽取 可 管理 的 、 可 重用 的 数据 的 努力 的 主要 背景 。 它 最 初 
是 由 简单 的 技术 好 奇 心 所 驱动 ， 以 及 圣诞 节 的 很 多 空闲 时 间 无 意 中 所 带 
xtti trai. 








AR RF [9] jt 


R og = [If] CrimeWatchzé — “48 DUE TI tr fei A, DAR RE: 
式 提供 犯罪 报告 相关 的 原始 制图 和 卡通 式 的 图 标 。CrimeWatch 为 便于 数 
据 展 示 进 行 了 专门 优化 ， 而 且 侧 重 于 预测 用 户 需 求 而 不 是 提供 原始 材 
料 。 应 用 的 用 户 体验 是 通过 “向 导 小 工具 ”(Wzard) 来 通知 的 ， 它 是 一 个 
用 户 界 面 ， 提 供给 用 户 一 系列 的 对 话 框 ， 它 们 生成 了 一 系列 的 步骤 ， 通 
过 特定 的 序列 执行 任务 。CrimeWatch 应 用 的 必要 步骤 如 下 : 

1. 事 件 : 选择 事件 的 类 型 〈 一 种 或 者 多 种 ) ; 

2. 地 点 : 在 地 址 附近 搜索 ， 在 可 管理 的 范围 内 ; 或 者 是 某 个 特征 附 
近 ， 如 学 校 或 者 公园 ; 

3. 时 间 : 在 多 长 的 时 间 范 围 内 进行 搜索 。 

CrimeWatch 通 过 静态 图 片 来 啊 应 ， 该 图 片 以 图 表 的 形式 显示 各 个 报 
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点 击 这 些 图 标 可 以 获取 更 多 的 信息 。 第 一 次 激 及 了 对 CrimeWatch 的 
兴趣 是 在 我 开始 思考 菏 种 方式 用 来 是 倒 服 务 闪 完 成 归并 过 程 ， 从 静态 的 
图 片 开 始 ， 通 过 附加 的 地 理 信息 来 抽取 犯罪 报告 信息 : 使 用 和 那些 其 他 
地 理 软件 系统 兼容 的 经 纬度 值 ， 通 党 被 称 为 地 理 定 位 (golocation)。 这 种 
简单 的 识别 问题 很 容易 理解 ， 而 且 在 视觉 特征 抽取 方面 已 经 存在 着 很 好 
的 技术 。 

首先 ， 我 们 需要 获取 一 张 图 片 进 行 处 理 。 这 过 程 实际 上 比 看 起 来 要 








AE. BUE ZEIT (hok), “说服 ”服务 器 生成 一 张 
犯罪 报告 图 片 。CrimeWatch 在 服务 器 端 保存 了 会 话 状态 ， 因 此 有 必要 通 
一 个 假 的 虚拟 用 户 来 模拟 一 套 完 整 的 向 导 互 动 模式 : 通过 表单 接受 服 
务 条 款 ， 然 后 通过 交互 向 导 继 续 完成 各 个 步 又 ， 在 这 些 过 程 中 保存 
HTTP Cookies 和 令 牌 (Tken)， 然 后 对 非 标准 的 HITP 重 定向 进行 正确 地 
响应 。 重 构 这 些 步 又 过 程 ， 从 而 生成 有 用 的 犯罪 报告 图 像 是 该 项 目 面临 
的 第 一 个 难题 。 幸 运 的 是 ， 客 户 端的 HITP 代 理 软 件 
Charles(http: //charlesproxy.com/) 和 Mozilla 插件 











LiveHTTPHeaders(http: //livehttpheaders.mozdev.org/) 简化 了 这 种 重 构 
过 程 。 解 释 中 间 HTML 页 面 本 里 是 通过 使 用 网 页 刊 屏 (pge-scraping) 库 的 
方法 ， 如 Leonard Richardson 的 BeautifulSoup 库 








(htp: //www.crummy.com/software/BeautifulSoup/) 。BeautifulSoup 库 是 
为 了 使 通常 看 到 的 HTML“ 标 签 ” 变 得 有 意义 ， 纠 正 了 某 些 通用 的 问题 如 
不 正确 的 嵌入 式 标签 或 者 部 分 标记 ， 而 且 它 允 许 我 们 读 取 HIML 表 格 和 
JavaScript 脚 本 命令 ， 这 些 构成 了 一 个 完整 的 客户 /服务 器 会 话 。 

可 以 使 用 简单 的 Unix 命 令 行 工具 如 Shell 脚 本 和 网 页 访问 工具 
cURL(http: //curl.netmirror.org/) 来 模拟 第 1 版 的 刮 屏 过 程 。 其 关键 是 仔 
细 检 查 浏 览 器 和 服务 器 之 间 的 HITP 连 接 ， 寻 找 暴 露出 来 的 信息 可 以 帮 
助 重新 构建 交互 。 查 看 URL 中 包含 的 CGI 变量 和 Post 方 式 请 求 体 是 重 构 
的 第 一 步 ， 它 可 以 准确 地 表示 接受 了 使 用 条 件 后 的 初始 的 会 话 连接 。 
于 会 话 的 应 用 如 CrimeWatch 大 量 地 使 用 了 Cookie 来 保存 客户 端的 状态 




















因此 ， 利 用 HTTP 库 把 Cookie 打 成 Jar 包 是 必需 的 。CrimeWatch 还 大 量 依 
赖 于 客户 端的 JavaScript 框 架 ， 而 不 仅仅 是 简单 的 表单 提交 ; 此 外 ， 它 还 
使 用 了 额外 的 状态 变量 ， 这 样 中 间 响 应 页 面 必 须 通过 HTML 解析 器 和 正 
则 表达 式 才 能 够 搜索 隐藏 在 页 面 脚 本 中 的 详细 信息 。 最 后 ， 由 于 很 多 这 
种 老 一 代 的 Web 应 用 是 在 路 浏览 器 的 动态 HTML 被 开发 者 普遍 应 用 之 前 
EIH, KERI User-Agent kti, BREIEN Aae Mozilla k 
狐 浏 览 器 绕 过 User-Agent 头 数据 通常 是 必要 的 ; FAEN A ate SIS APR 
容 报警 信息 ， 不 返回 任何 数据 。 

在 这 个 过 程 结束 时 ， 只 剩 下 中 等 大 小 的 图 片 位 图 ， 期 望 能 够 包含 可 
识别 的 犯罪 报告 图 标 。 通 过 第 一 轮 抽 取 每 个 图 标的 像素 位 置 很 简单 ， 但 
是 过 程 很 慢 ; 对 于 图 像 中 的 每 个 可 能 的 位 置 ， 把 它 的 像素 颜色 和 已 知 的 
图 标 做 比较 ， 一 旦 差异 小 于 某 个 给 定 的 闪 值 ， 就 显示 正 的 匹配 度 值 。 因 
为 我 们 是 在 噪音 相对 较 少 的 后 台 来 处 理 预先 指定 的 图 标 ， 这 实际 上 是 一 
种 完全 的 “防弹 ”方法 。CrimeWatch 中 使 用 的 犯罪 图 标 是 独一无二 的 ， 而 
且 即 使 部 分 被 其 他 图 标 或 者 图 片 特征 所 屏蔽 ， 但 是 还 是 可 以 很 容易 识别 
出 来 。 我 采用 的 检测 这 些 图 片 的 工具 是 
NumPy(http: //numpy.scipy.org/) ， 它 是 一 个 久 经 考验 、 功 能 强大 的 
Python 数组 操作 库 。 图 11-2 和 图 11-3 显 示 了 CrimeWwatch 的 部 分 样本 图 
片 ， 突 出 显示 了 程序 可 识别 的 图 标 。 
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图 11-2: CrimeWatch HARE BRET AB. Hub. 463. BRAM 


等 犯罪 活动 〈 见 彩 图 29) 
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图 11-3: CrimeWatch 相 同 的 样本 数据 ， 突 出 显示 了 程序 可 识别 的 图 标 
( 见 彩 图 30) 

遗憾 的 是 ， 变 力 方法 在 普通 的 CPU 上 很 慢 ， 但 是 通过 对 所 需 处 理 的 
各 种 地 图 的 一 些 简 单 分 析 ， 也 许可 以 对 其 速度 进行 一 些 优化 。 例 如 ， 很 
多 犯罪 报告 图 标 有 很 显著 的 特征 颜色 : 通常 货币 形状 的 绿色 袋子 表示 次 
鳃 ， 蓝 色 拳击 手套 表示 普通 伤害 。 一 种 简单 的 预 处 理 步 又 是 通过 代价 较 
低 的 图 片 扫 描 来 找到 与 其 中 一 个 期 望 的 颜色 接近 的 像素 的 位 置 ， 这 种 方 
式 可 以 极 大 地 降低 代价 高 的 全 图 标 匹 配 的 位 置 数目 。 图 11-4 用 白色 正好 
显示 了 图 11-2 的 红色 部 分 ， 它 表示 严重 伤害 可 能 发 生 的 场所 ， 可 以 看 到 
有 红色 的 拳击 手套 。 
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图 11-4: CrimeWatch 的 相同 的 样本 图 片 ， 红 色 的 部 分 用 白色 显示 是 


为 了 更 清晰 地 突出 红色 的 源 击 手套 图 标 ( 表 示 严 重伤 害 ) 

一 个 较为 复杂 的 预 处 理 步 又 是 通过 一 系列 的 扫描 来 搜索 临近 的 几 种 
特征 图 标 颜 色 。 例 如 ， 盗 佐 是 通过 黑白 相间 的 破碎 的 玻璃 小 图 标 来 显示 
的 。 一 张 经 典 的 地 图 上 包含 很 多 的 黑色 和 日 色 ， 但 只 有 图 标 和 文本 会 黑 
所 相间 。 我 们 会 找到 所 有 和 这 两 种 颜色 很 相近 的 像 和 水， 并 把 高 代价 的 搜 
索 区 域 降低 限制 为 只 包含 有 限 的 候选 像素 。 

每 次 犯罪 报告 的 地 理 定位 过 程 都 需要 根据 在 演 染 地 图 中 检测 到 的 像 
素 位 置 来 确定 位 置 。 为 了 实现 这 一 点 ， 对 于 给 定 的 一 组 输入 ， 
CrimeWatch 总 是 返回 可 预测 大 小 和 位 置 的 地 图 是 有 帮助 的 。 例 如 ，3 号 








警 务 服务 区 域 (Plice Service Area) 的 地 图 需要 总 是 覆盖 相同 的 区 域 ， 而 不 
用 考虑 当时 实际 的 犯罪 报告 是 集中 于 区 域 的 某 个 角落 还 是 扩散 到 所 有 地 
方 。CrimeWatch 提 供 的 地 图 包含 的 底层 地 理 特 征 如 街道 或 海岸 线 ， 总 是 
在 相同 的 地 方 。 对 于 每 一 种 可 能 的 地 理 布局 方式 ， 需 要 人 工 定位 三 个 大 
间距 的 已 知 参照 点 。 道 路 交叉 口 对 于 这 点 非常 合适 ， 因 为 在 CrimeWatch 
上 可 以 很 容易 地 定位 它们 的 (x,y) 像素 坐标 ， 而 且 通 过 Simon Willison 
的 GetLatLon 应 用 (htp: /getatlon.com)， 也 可 以 很 容易 地 定位 道路 交叉 
口 的 地 理 位 置 (经 纬度 ) 。 给 奥克兰 的 6 个 警 务 服务 区 添加 三 个 参照 点 
相当 于 手工 创建 了 18 个 已 知 的 地 理 定位 。 该 步骤 只 需要 做 一 次 : 在 每 个 
服务 区 ， 所 有 能 在 地 图 上 找到 的 图 标 ， 都 可 以 利用 简单 的 线性 算法 ， 通 

过 和 已 知 的 参照 点 比较 ， 计 算出 它们 的 地 理 位 置 。 图 11-5 显 示 了 商业 区 
邮政 编码 的 地 图 ， 它 包含 选 定 的 三 个 地 理 参 照 点 。 定 位 了 这 三 个 点 之 
后 ， 就 可 以 三 角 测量 地 图 上 的 任何 其 他 点 的 地 理 位 置 。 























图 11-5: 奥克兰 商业 区 地 图 ， 为 三 角 测 量 所 显示 的 三 个 参照 点 ( 见 彩 
图 31) 


唯一 剩 下 的 一 件 事 就 是 模拟 用 户 点 击 每 个 犯罪 图 标 ， 收 集 关 于 犯罪 
报告 的 进一步 详细 信息 ， 比 如 案例 编号 、 每 天 的 日 期 和 时 间 以 及 简单 的 
文本 描述 。 其 生成 的 最 终 产 品 是 每 天 包含 大 约 100 个 报告 的 数据 库 。 该 
步骤 面临 的 一 个 挑战 是 确定 一 个 独特 报告 是 由 哪些 构成 的 。 我 采用 移动 
窗口 来 收集 报告 ， 这 意味 着 每 个 报告 都 会 被 收集 多 次 ， 而 多 个 独立 的 报 
告 可 以 通过 警察 局 提供 的 唯一 案例 编号 覆盖 成 一 个 。 最 后 ， 我 们 使 用 了 
一 组 案例 编号 和 文本 描述 ， 它 们 足够 覆盖 数据 收集 中 绝 大 部 分 的 不 一 致 
性 。 

实现 上 述 功能 的 代码 运行 于 事件 驱动 的 网 络 引擎 Twisted 
Python(http: //www.twistedmatrix.com/) 上 。 采 用 这 种 引擎 使 得 打开 并 
保持 一 个 长 时 间 持 续 运 行 、 使 用 CrimeWatch 提 供 服务 的 模拟 浏览 器 的 会 
话 变 成 可 能 。 有 了 这 些 代码 库 ， 可 以 把 脆弱 的 程序 转变 成 每 天 晚上 连续 
运行 和 收集 数据 的 应 用 程序 ， 而 且 结 果 数 据 也 可 以 以 表单 方式 公开 展 
示 。 我 们 相信 对 于 奥克兰 市 的 居民 而 言 ， 表 单方 式 显 示 要 比 采 用 
CrimeWatch 显 示 显 得 更 为 友好 。 

晚上 收集 这 些 数据 为 最 初 8 个 月 的 收集 和 实验 葛 定 了 基础 。 每 天 晚 
上 ， 我 们 会 在 13 种 类 型 的 犯罪 和 6 个 警 务 服务 区 的 全 部 组 合 上 运行 一 个 
网 页 刊 屏 工具 (Pge Scraper)。 由 于 CrimeWatch 的 一 次 性 设计 ， 每 个 个 人 
报告 需要 有 它 自己 的 请 求 /响应 循环 。 我 们 还 为 每 个 步 又 增加 了 很 多 延 
在 这 个 过 程 中 ， 每 两 个 步骤 之 间 高 达 一 分 钟 或 者 更 多 的 延迟 
因此 不 会 由 于 过 多 的 请 求 而 使 CrimeWatch 服 务 器 负载 过 高 。 在 午夜 之 
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后 ， 将 会 局 动 单一 进程 运行 ， 而 且 该 程序 通常 可 以 持续 6 个 小 时 或 者 更 
多 。 
一 般 来 说 ， 错 误 还 是 时 常 发 生 。CrimeWatch 服 务 程序 常常 会 变 得 非 
营 “ 不 理智 "”， 揭 强生 成 一 个 没有 空间 、 时 间或 类 型 约束 的 地 图 ， 比 如 奥 
克 兰 过 去 三 个 月 所 有 地 区 的 所 有 犯 非 。 我 们 没有 可 人 靠 的 方式 来 检测 这 种 
情况 ， 而 且 我 们 的 数据 库 所 报告 的 地 理 位 置 经 党 错乱 。 

在 这 个 案例 中 ， 我 们 觉得 偶尔 的 错误 报告 只 是 为 了 改进 数据 库 浏览 
工具 而 付出 的 很 小 的 代价 。 在 2007 年 前 半年 ， 我 们 继续 收集 数据 ， 通 过 
可 视 化 表示 或 者 出 版 友 表 技术 ， 周 期 性 地 发 布 一 些小 的 实验 。 











公开 数据 


2007 年 8 月 2 日 ，《Oakland Post》 记 者 兼 主编 Chauncey Bailey 在 光 天 
化 日 下 被 刺杀 了 ， 距 离 我 所 在 的 商业 区 的 公寓 仅 隔 几 个 区 。 虽 然 这 个 尚 
未 公开 的 案例 看 起 来 是 被 当前 Bailey 正 在 调查 的 一 群 罪犯 分 子 的 政治 谋 
杀 的 一 个 案例 ， 但 是 它 重新 聚焦 了 全 国 对 奥克兰 暴力 犯罪 的 关注 。 几 乎 
同时 ，《Oakland Tribune》 的 Sean Connelly 和 Katy Newton 发 表 了 获奖 作 
m <Not Just A Number》， 它 是 一 张 奥 元 兰 杀 人 犯 的 交互 图 





(htp: //www.bayareanewsgroup.com/multimedia/iba/njn/) 。Connelly 和 
Newton 对 于 该 城市 的 谋杀 统计 幕后 的 故事 尤其 感 兴 趣 。 在 《Not Just A 
Number》 地 图 中 ， 绝 大 部 分 的 受害 者 先是 通过 面部 照片 来 识别 ， 它 还 
努力 联系 受害 者 活着 的 家 人 、 朋 友和 邻居 在 新 闻 报 道中 露面 留 名 。 我 们 
对 于 提供 一 个 服务 来 提供 铁 的 事实 和 当前 数据 来 补充 这 些 故事 非常 感 兴 
趣 。 

我 们 的 预算 包括 三 个 人 、 两 周 的 敏捷 开发 工作 量 : 我 们 把 收集 的 数 
据 转化 为 可 用 于 Web 的 服务 ，Stamen 交 互 设计 师 Tom Carden 使 用 Flash 开 
发 了 可 融入 式 的 可 视 化 接口 ， 而 富 于 创意 的 负责 人 Eric Rodenbeck 预 见 
了 这 种 可 视 化 方向 及 其 伴随 而 至 的 语言 所 产生 的 效果 。 

发 布 信息 优先 级 最 高 的 是 要 显示 所 有 方面 。Crimespotting 网 站 的 主 
页 是 一 张 地 图 〈 见 图 11-6) ， 而 且 该 地 图 显示 了 从 上 周 开始 的 所 有 犯罪 
报告 。 地 图 包含 西 奥克兰 和 商业 区 的 绝 大 多 数 地 方 ， 包 含 图 标 化 的 Lake 























Merritt， 可 用 于 视觉 识别 。 熟 悉 的 “滑动 地 图 ”(Sippy Map) 的 移动 和 缩放 
控制 使 得 可 以 迅速 地 获取 城镇 的 其 他 地 方 的 信息 ， 西 北部 是 
BerkeleyEmeryville， 东 北部 是 富饶 的 山脉 和 Piedmont， 东 南部 是 San 
Leandro 及 其 以 外 地 区 。 这 种 表示 方式 与 奥克兰 城市 的 官方 网 站 City of 
Oakland 发 布 的 当前 已 有 的 通过 向 导 的 方式 形成 了 鲜明 的 对 比 。 现 有 的 
应 用 需要 一 些 关 于 奥克兰 的 先 验 知识 ， 而 且 它 假定 参观 者 寻找 的 是 特定 
地 方 的 犯罪 信息 ，Crimespotting 项 目的 “滑动 地 图 ”不 需要 先 验 知识 或 者 
特定 的 搜索 议程 表 ， 相 反 地 ， 它 支持 的 是 更 有 探索 性 的 、 更 曲折 的 搜索 
行为 。Peter Morville 描 述 的 是 一 种 新 兴 的 概念 一 一 “可 寻 

性 ”(fndability)， 它 描述 了 在 信息 空间 中 进行 定位 的 方法 以 及 借助 接口 和 
描述 使 得 数据 实现 自我 描述 的 方法 。 动 态 的 基于 Web 的 地 图 在 过 去 四 年 
中 经 历 了 很 多 改变 升级 。 在 2005 年 ， 一 家 报纸 网 站 采用 GMap 做 试验 ， 
发 现 被 测 人 员 不 知道 他 们 可 以 拖 动 地 图 ， 现 在 像 《New York Times) ix 
样 的 组 织 会 定期 地 把 信息 设计 和 表现 方式 在 线 公 示 。 有 了 犯罪 数据 库 ， 
我 们 觉得 通过 创造 数据 优先 的 用 户 接口 ， 使 数据 更 具有 “可 寻 性 ”是 很 重 
要 的 。 数 据 首先 意味 着 通过 大 范围 的 可 视 化 概要 表示 是 可 能 的 ， 并 且 通 
过 类 型 、 时 间或 地 理 特征 缩小 了 搜索 结果 范围 。 我 们 实现 了 “ 香 型 小 工 
具 ”(Sented Widgets)， 由 加 州 大 学 伯克利 分 校 的 研究 人 员 Wesley 
Willett. Jeffrey HeerfliManeesh Agrawala 在 2007 年 嵌入 式 可 视 化 方面 的 




















论文 (htp: //vis.berkeley.edu/papers/scented widgets/2007-ScentedWidgets- 
InfoVis.pdf) 中 提出 : 
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图 11- 奥 UT H 的 主页 显示 .了 从 上 周 开始 的 犯罪 报 
告 地 图 ( 见 彩 图 32) 

虽然 有 效 的 信息 “ 气 奶 ”线索 可 能 是 基于 底层 的 信息 内 容 〈( 如 在 Web 

超 链 接 的 文本 搬 述 了 链接 文档 的 内 容 ， 这 就 是 “ 气 晨 ”) ， 其 他 线索 可 能 

涉及 各 种 形式 的 元 数据 ， 包 括 使 用 模式 。 在 物理 世界 ， 我 们 通常 以 浏览 

的 方式 对 待 其 他 人 的 活动 。 当 发 现 一 群 人 聚集 在 一 起 的 时 候 ， 我 们 可 能 

走 过 去 以 便 观察 确定 引起 大 家 兴趣 的 根源 到 诬 是 什么 。 或 者 ， 我 们 可 能 

故意 避 开 人 和 群 或 者 陈腐 的 途径 ， 选 择 “ 人 迹 罕 至 ”的 方式 来 探索 鲜 为 人 知 

的 兴趣 点 。 在 信息 空间 环境 中 ， 这 种 社会 性 的 浏览 会 把 我 们 的 注意 力 吸 
引 到 兴趣 的 热点 或 者 疝 未 探索 的 区 域 。 














Crimespotting 地 图 左下 角 的 主 接口 的 时 间 选 择 器 界面 显示 了 报告 的 
犯罪 随 着 时 间 变 化 的 条 形 图 〈 见 图 11-7) ， 虽 然 在 右 下 层 类 型 选择 器 包 
含 了 谨慎 的 工具 提示 信息 ， 显 示 当 前 选择 时 间 范 围 的 每 种 报告 类 型 的 总 
数 〈( 见 图 11-8，。 这 两 种 选择 卓 都 包含 双重 功能 :过 小 和 有 反馈。 特别 
是 ， 时 间 选 择 器 是 受到 博客 统计 包 Measure 
Map(http: //measuremap.com/) 的 一 个 类 似 功 能 启发 ，Measure Map 是 
Adaptive Path 公 司 的 Jeffrey Veen 设 计 的 ， 后 来 变 成 G 公 司 的 分 析 产 品 。 
而 反 过 来 ，Measure Map 的 时 间 滑 动 轴 是 受 Flickr 的 界面 特征 所 启发 的 ， 
因此 ， 坦 日 说 ， 这 实际 上 是 模仿 。 我 们 自己 加 强 的 是 不 同 条 形 栏 的 颜色 

x 分 ， 并 显示 已 经 包含 的 数据 的 日 期 ( 深 色 〉 和 不 包含 的 数据 的 日 期 
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图 11-7: Crimespotting#) $344 E $3 " 选择 器 界面 ( 见 彩 图 33) 








图 11-8: 类型 选择 器 显示 了 在 选 定时 间 范围 内 的 每 种 报告 类型 的 总 数 
( 见 彩 图 34) 

在 图 11-8 中 ， 有 一 个 水 平滑 动 轴 显 示 所 有 和 东西， 而 它 就 是 信息 过 
载 。 我 们 已 经 介绍 了 一 种 可 视 化 报告 类 型 过 滤 的 方式 ， 它 是 受到 苹果 公 
司 的 Max OS X 系 统 偏好 的 聚光灯 特征 所 启发 ， 当 在 地 图 中 存在 特定 的 
犯罪 报告 ， 或 者 通过 鼠标 在 类 型 选择 器 上 多 滞留 几 秒 钟 ， 界 面 颜 色 就 变 
深 ， 使 得 地 图 中 高 亮 显示 的 区 域 围 绕 匹 配 该 类 型 的 报告 。 抢 劫 可 能 会 由 
于 不 同 的 犯罪 类 型 被 窗 盖 ， 导 致 无 法 在 地 图 上 显示 ， 但 是 可 以 通过 聚焦 
显示 方式 展现 和 访问 它 。 

设计 过 程 中 的 意外 收获 使 我 们 更 清楚 地 理解 了 数据 专业 化 的 哪些 方 
面 可 以 成 为 应 用 界面 产品 。 考 虑 到 Flash 在 视觉 特技 方面 相当 成 熟 ， 我 们 
选择 它 作 为 实现 环境 ， 而 且 及 时 实现 了 我 们 自己 必须 实现 的 滑动 地 图 交 
互 代 码 ， 而 不 是 依赖 于 很 多 已 有 可 选 的 JavaScript 库 ， 如 


OpenLayers(http: //www.openlayers.org). 





























平移 、 缩 放 地 图 交互 看 起 来 是 可 以 应 用 于 其 他 项 目的 一 个 有 用 的 功 
能 点 ， 因 此 在 犯罪 数据 显示 的 早期 工作 成 果 是 生成 了 独立 的 通过 BSD 授 
权 的 软件 库 Modest Maps(http: //www.modestmaps.com/) 。Modest Maps 
在 数据 显示 和 交互 隐喻 之 间 的 功能 有 一 个 清晰 的 突破 ， 而 且 它 把 地 图 相 
关 的 代码 库 独 立 出 来 ， 这 有 助 于 很 多 不 相关 的 项 目的 敏捷 开发 ， 这 些 项 
目 有 一 些 源 于 Stamen， 但 是 很 多 是 来 自 于 外 界 的 设计 和 开发 。 

第 二 优先 级 是 为 我 们 收集 的 数据 生成 一 个 公开 、 可 共享 的 地 址 空 
间 。 通 常 来 襄 ， 在 Crimespotting 项 目 中 只 有 一 些 URL“ 气 息 ”: 


:地 图 视图 http: /oakland.crimespotting.org， 更 大 的 视图 在 














http: //oakland.crimespotting.org/map. 

-报告 列表 视图 ， 如 
http: //oakland.crimespotting.org/crimes,http: //oakland.crimespotting.org/c 
01-09 和 http: //oakland.crimespotting.org/crimes/2009-01-09/Robbery . 

:个 人 报告 视图 ， 如 http: //oakland.crimespotting.org/crime/2009-01- 
09/Robbery/113569. 

:巡警 视图 ， 如 http: //oakland.crimespotting.org/beat/04X . 

绝 大 多 数 URL 是 在 把 它 和 内 容 关 联 起 来 之 前 设计 的 。 特 别 地 ， 这 些 
URL 需 要 和 设计 师 Matt Biddulph 在 2005 年 发 表 的 演讲 “Designing Data For 
Reuse"(htp: //www.hackdiary.com/slides/xtech2005/) 的 思想 一 致 : 可 读 
性 、 建 设 性 、 易 于 破解 、 不 透明 、 永 恒 和 经 典 。 我 们 包含 地 址 的 一 个 层 
次 结构 ， 它 在 大 声 朗 读 时 富有 前 律 :“1 月 9 日 抢 动 *»，“04X 巡 管 ” 等 。 其 








中 存在 潜在 的 二 义 性 一 一 例如 时 间 在 前 %/ 犯 罪 /2009-01-09/ 抢 动 * 和 类 型 
在 前 %/ 犯 罪 / 抢 动 /2009-01-09” 或 者 单数 形式 的 “/ 犯 罪 (cime)/ 抢 动 * 和 复数 
形式 的 “/ 多 重 犯罪 (cimes)/ 抢 动 * 一 一 我 们 把 这 些 HTTP 请 求 重 定 向 到 它们 
自己 相应 的 表单 。 该 重 定向 通过 确保 一 个 人 给 出 的 某 天 的 盗 窍 清单 和 另 
一 个 人 给 出 的 能 够 完全 匹配 ， 这 样 URL 就 变 得 更 具有 共享 性 。 通 过 个 人 
给 出 的 URL， 其 不 足 之 处 在 于 它 的 地 址 结尾 存在 一 个 数值 关键 字 。 
PostgreSQL 开 发 人 员 Josh Berkus JE% MRP E, EEH“ Primary 
Keyvil 的 系列 文章 中 对 此 做 了 详细 的 描述 
(htp: //it.toolbox.com/blogs/database-soup/primary-keyvil-part-i-7327 ) : 
没有 多 久 (大 约 两 个 月 ) ， 我 们 就 发 现 使 用 “id 作为 唯一 的 不 重 
复 字 段 存在 严重 问题 。 我 们 在 日 历 安 排 上 有 很 多 的 听证 会 ， 它 们 具有 相 
同 的 摘要 、 在 同一 天 或 者 在 同一 个 地 方 发 生 。 这 两 个 听证 会 是 相同 的 还 
是 不 同 的 ?我们 无 法 确定 。 问 题 的 本 质 是 自动 id 列 不 包含 其 关联 记录 的 
信息 ， 而 且 不 包含 该 记录 的 任何 信息 。 记 录 本 身 可 能 是 重复 的 ， 也 可 能 
是 唯一 的 ， 而 如 果 有 人 无 知 删除 了 外 键 约束 ， 重 复 的 记录 就 丢失 了 。 
我 们 包含 这 些 关键 字 的 理由 是 奥克兰 警察 局 保存 记录 的 方式 相当 松 
散 。 虽 然 每 个 报告 都 有 一 个 案例 编号 ， 但 这 些 编号 通常 是 在 不 同 报告 之 
间 共 享 ， 而 且 看 起 来 把 一 组 个 人 的 指控 连接 为 单个 更 广泛 的 事故 。 一 个 
极 闻 的 例子 是 编号 为 08-056061 的 案例 
(htp: //oakland.crimespotting.org/crime/2008-08-01/murder/93014) ， 它 关 
联 了 9 个 在 2008 年 8 月 某 个 晚上 发 生 的 谋杀 、 盗 鳃 和 严重 伤害 报告 。 我 们 





























己 经 使 用 案例 编号 和 文本 描述 (如 “ASSAULT W/SEMIAUTOMATIC 
FIREARM ON PEACE OFFICER/FIREFIGHTER”) 作为 唯一 标识 符 来 解 
决 这 个 问题 ， 但 这 种 方式 导致 URL 太 长 ， 可 读 性 很 低 ， 因 此 使 用 数值 ID 
NES 

对 URL 的 这 种 关注 的 结果 是 把 在 线 的 犯罪 信息 转化 为 社会 对 象 。 在 
CrimeWatch 上 ， 引 用 报告 需要 对 要 采取 的 动作 使 用 过 程 化 的 描述 : 采用 
问 导 小 工具 (Wzard)， 可 以 选择 这 个 ， 按 住 那个 ， 点 击 这 里 等 ， 找 到 关 
于 某 个 特定 报告 的 特定 信息 需要 大 约 10 多 次 的 独立 点 击 。URL 公 开 之 
后 ， 其 本 身 也 是 犯罪 信息 的 完整 描述 。Leonard Richardson 认 为 地 址 或 者 
统一 资源 标识 符 URI 是 导致 WWW 在 20 世 纪 取 代 了 其 他 流行 的 网 络 协议 
的 主流 技术 。 在 Richardson 2008 年 的 精彩 演讲 “Justice Will Take Us 








Millions Of Intricate 

Moves"(htp: //www.crummy.com/writing/speaking/2008-QCon/) 中 ， 他 
认为 Web 主 要 有 三 种 技术 构成 : 定位 资源 的 URI 协 议 、 传 输 资源 的 HTTP 
协议 和 使 客户 端 软件 能 够 理解 并 知道 如 何 处 理 资源 的 HTML。 这 三 者 都 
是 至 关 重要 的 组 成 部 分 。 特 别 地 ，URI 设 计 受 到 人 们 的 广泛 关注 ， 但 实 
际 上 是 包含 链接 和 表单 的 又 老 又 慢 的 HTML 使 得 相互 连接 的 Web 真 正 变 
成 可 能 。HTML 是 对 Roy T.Fielding 在 2000 年 博士 论文 中 提出 的 “表示 状 
态 传 输 (Rpresentational State Transfer,REST) 作 为 架构 方 





式 ”(htp: //www.ics.uci.edu/~fielding/pubs/dissertation/top.htm) 想 法 的 至 
关 重 要 的 解释 。 只 要 可 能 ， 我 们 就 遵循 这 些 想法 ， 保 持 Crimespotting 的 


交互 的 Falsh 展 示 部 分 严格 基于 基础 的 、1993 年 的 Web 页面 的 格式 。 我 们 
的 API 为 Flash、RSS 和 Atom 的 Feed 读 者 提供 XML 格式 的 数据 ， 为 电子 表 
格 提供 CSV 格 式 的 数据 ， 所 有 核心 的 使 用 信息 方式 组 成 了 一 套 完整 的 
API。 

2007 年 8 月 发 布 的 产品 中 圳 括 了 这 里 描述 的 所 有 概念 ， 同 时 依赖 于 
CrimeWatch 在 夜间 执行 的 代价 很 高 的 刊 页 操作 。 我 们 确定 市 政府 肯定 有 
人 最 终 会 注意 到 这 一 点 并 对 它 表示 不 满 ， 但 是 八 个 月 来 系统 一 直 运 行 很 
顺利 ， 这 让 我 们 产生 了 一 种 安全 的 错觉 。 











重新 回顾 


发 布 后 不 入 ， 我 们 的 网 页 刊 屏 程序 的 运行 负荷 开始 超出 能 够 容忍 的 
底线 。 即 使 使 用 通用 的 浏览 器 ， 似 乎 不 论 等 竺 多 长 时 间 ， 都 无 法 访问 
CrimeWatch 网 站 。 城 市 信息 技术 部 相关 人 员 的 谈话 ， 瞳 示 我 们 一 旦 公众 
注意 到 这 些 访 问 问题 ， 该 网 站 就 会 不 受 欢 迎 。 他 们 提供 了 通过 官方 访问 
这 些 数据 的 一 些 线索 ， 但 是 他 们 那 种 作风 的 方式 处 理 很 慢 ， 没 有 任何 即 
时 收效 。 我 们 很 遗憾 地 关闭 了 该 网 站 ， 花 了 几 个 月 考虑 优化 程序 以 及 改 
进 策略 ， 使 它 能 够 重新 运转 起 来 。 在 那 时 ， 我 们 尝试 了 两 种 思路 来 优化 
该 系统 ， 同 时 还 开发 实现 了 一 个 新 功能 。 对 系统 的 两 种 优化 最 终 都 未 成 
功 ， 而 新 开发 的 功能 则 对 外 发 布 了 。 这 次 修改 过 程 的 一 个 产 出 是 生成 更 
集中 、 实 用 的 最 终 数 据 展现 方式 。 

在 思考 如 何 最 佳 表示 本 地 犯罪 的 影响 时 ， 我 和 Adam Greenfield 的 谈 
话 激发 了 这 种 想法 :“ 暴 力 是 发 生 在 某 个 地 方 的 一 种 力 。” 在 周边 社区 的 
谋杀 或 者 抢 动 所 带 来 的 长 期 影响 可 以 被 看 做 一 个 环 〈 见 图 11-9〉。 这 种 
想法 的 在 我 的 大 脑 中 产生 的 初始 模型 是 一 个 空间 -时 间 半 球 ， 球 的 空间 
半径 约 0.25 里 ， 时 间 半 径 是 一 周 。 这 种 可 视 化 显示 方式 将 是 : 从 一 个 点 
开始 ， 随 着 时 间 轴 逐渐 靠近 精确 的 事件 发 生 时 间 而 变 大 为 一 个 有 色 圆 。 
Greenfild 建 议 将 半球 转换 为 一 对 圆锥 : 犯罪 的 时 间 点 是 两 个 圆锥 的 共同 
的 顶点 ， 在 时 间 轴 上 以 这 个 点 为 起 点 向 前 和 向 后 各 有 一 个 “ 光 锥 (lght 
cone)。 其 视觉 显示 效果 将 是 一 个 大 的 散 开 的 圆圈 随 着 逐渐 接近 事件 发 














生 的 精确 时 间 而 逐渐 清晰 化 ， 并 最 终 汇 聚 为 一 个 微小 的 点 。 这 种 展现 方 
式 的 理念 可 能 更 适合 于 展示 对 象 的 随机 属性 。 犯 罪 的 潜在 可 能 性 可 能 很 
三 ， 甚 至 可 能 涵 雍 整个 社区 。 随 着 事件 的 曝光， 这 种 潜在 的 危害 逐渐 腿 
焦 为 一 个 点 - 即 东 个 邻居 成 为 受害 者 ， 然 后 随 独 消息 传播 开 来 ， 个 人 安 
全 感 也 消失 了 。 
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图 11-9: 设想 的 一 起 谋杀 或 抢 动 对 周边 社区 的 长 期 影响 的 两 种 方式 
我 们 生成 了 很 多 交互 式 地 图 来 探索 这 种 以 圆锥 作为 隐喻 的 方式 ， 并 


发 现 了 一 些 有 趣 的 现象 。 其 中 一 个 现象 是 某 些 类 型 的 报告 存在 依赖 于 其 
实施 方式 的 唯一 视觉 签名 。 卖 淫 就 是 其 中 的 一 个 特例 。 在 之 前 的 案例 
中 ， 我 们 展现 的 绝 大 多 数 报告 都 是 事件 驱动 的 -受害 者 给 我 们 打 电 话 ， 
而 卖 泽 则 是 由 警察 局 的 决策 和 安排 的 严打 所 驱动 的 。 通 常 ， 在 前 端 展 示 
上 ， 关 于 卖 泽 方面 ， 好 几 周 都 是 风平浪静 ， 而 后 会 突 发 产生 关于 San 
Pablo Avenue 或 International Boulevard 的 迅猛 的 、 翻 天 禾 地 的 信息 。 遗 憾 
的 是 ， 这 种 圆锥 式 的 展示 方式 太 怪 异 了 ， 以 致 在 主要 的 网 站 上 无 法 使 
用 。 而 在 地 图 上 ， 通 过 时 间 遍 历 的 方法 非常 新 颖 ， 而 且 对 我 们 来 说 ， 使 
报告 展示 和 时 间 的 关系 控制 尽量 明朗 是 很 重要 的 。 圆 锥 式 展示 方式 将 还 
需要 进一步 试验 。 

在 我 们 关闭 网 站 时 期 ， 我 们 考虑 到 另 一 种 可 能 的 改进 是 采用 分 布 式 
的 网 页 刮 屏 方式 (pge scraping)。 正 常 的 收集 过 程 容易 受到 中 断 的 原因 是 
所 有 请 求 都 来 源 于 相同 的 网 络 地 址 ， 这 使 得 这 些 请 求 在 需要 时 很 容易 被 
阻塞 。 我 们 试验 了 一 种 分 布 式 的 模型 ， 它 是 火狐 浏览 器 的 一 个 现成 的 插 
件 ， 主 要 通过 JavaScript 控 制 。 我 们 希望 有 足够 多 理解 技术 的 访问 者 会 愿 
意 下 载 浏 览 器 搜索 框 ， 帮 助 收 集 数 据 。 这 种 方式 ， 和 通常 的 网 站 使 用 方 
式 截然 不 同 ， 发 到 CrimeWatch 服 务 器 的 请 求 将 会 在 每 天 不 定时 地 被 分 散 
到 很 多 访问 IP 地 址 中 。 这 种 处 理 过 程 的 优点 是 在 最 后 增加 了 人 工 错误 纠 
正 。 中 间 件 刮 页 过 程 的 最 后 页 面 中 包含 了 用 户 帮 助 收 集 的 所 有 报告 的 总 
体 概 述 ， 还 可 能 标注 某 些 匹配 为 不 正确 的 。 

在 这 期 间 开 发 的 一 个 新 功能 是 巡警 区 专用 (bat-specific 页 面 ， 比 如 在 






































商业 地 区 和 Lake Merritt 地 区 之 间 的 商业 和 居住 区 域 : 
http: //oakland.crimespotting.org/beat/04X (1811-10) 。 当 我 们 最 初 开 
发 该 服务 时 ， 我 们 有 意识 地 决定 忽略 在 CrimeWatch 中 出 现 的 管理 部 门 。 
警 务 服务 区 域 、 城 市 委员 会 区 、 邮 递 区 、 巡 警 区 对 我 们 而 言 都 只 是 对 定 
位 的 一 个 干扰 。 在 发 布 后 ， 我 们 很 快 明白 了 我 们 对 巡警 区 的 理解 是 错误 
的 。 用 户 告诉 我 们 公民 和 和 警察 局 间 的 沟通 主要 的 渠道 是 巡警 区 的 警官 ， 
这 些 警 官 各 自 有 特定 的 巡查 区 域 且 会 定期 与 当地 社区 的 居民 开会 沟通 。 
报告 按照 巡警 区 进行 划分 是 非常 重要 的 ， 因 为 它 匹 配 了 任何 给 定 的 警官 
关注 的 区 域 和 责任 。 另 外 ， 巡 警 区 的 边界 通常 是 该 城市 的 明显 的 物理 特 
征 ， 主 要 街道 、 小 溪 、 高 速 公路 和 铁路 都 是 作为 社区 的 自我 标识 的 关键 
特征 。 巡 警 区 页 面 显示 的 是 该 区 域 的 静态 全 局 概要 地 图 ， 以 及 对 于 习惯 
于 电子 表格 软件 的 非 技术 人 员 来 说 ， 它 是 比较 有 用 的 一 部 分 API。 在 这 
个 功能 中 ， 我 们 收 到 的 最 终 的 反馈 是 非常 宝贵 的 。 居 民 说 : “我 们 下 周 
有 Beat1X NCPC 社区 犯罪 预防 委员 会 ) 会 议 .…... 我 可 以 比 那些 老 营 察 
(OD) 准 备 得 更 充分 .……. 到 目前 为 止 ， 他 们 几乎 没有 将 统计 数据 分 享 给 我 
ile” 

火狐 浏览 器 插件 及 其 关联 的 Web 服 务 控制 器 完成 后 ， 正 在 计划 做 一 
些 有 限 的 、 实 验 性 的 首次 展示 的 时 候 ， 奥 克 兰 城市 官方 报纸 City of 
Oakland 告 诉 我 们 ， 他 们 将 每 天 晚上 给 我 们 提供 一 个 包含 合适 的 街道 地 
址 和 爹 路 口 的 完整 的 全 城 范围 的 犯罪 报告 信息 列表 。 从 2008 年 1 月 开 
始 ， 一 直 持 续 到 今天 ， 由 于 市 政 创建 者 以 及 与 我 们 一 起 工作 的 数据 管理 


























员 帮 助 ， 我 们 的 数据 收集 过 程 已 经 从 元 余 、 易 错 的 事件 驱动 方式 转化 为 
敏捷 的 处 理 方式 。 最 终 ， 在 奥克兰 CTO Bob Glaze、 项 目 经 理 Ahsan Baig 
和 City 的 Julian Ware 和 Andrew Wang 的 帮助 下 ， 我 们 获得 了 在 夜间 生成 

的 官方 犯罪 报告 数据 的 Microsoft Excel 电 子 表格 。 改 进 后 的 系统 和 之 前 

的 犹如 天 壤 之 别 : 原来 需要 几 个 小 时 的 数据 收集 和 处 理 ， 现 在 只 需 几 分 
钟 。 定 位 信息 也 变 得 更 加 真实 可 靠 ， 地 图 信息 详细 到 了 街区 级 别 ， 突 出 
街道 名 称 和 又 路 口 特征 ， 取 代 了 原 有 的 彩色 图 标 。 








结束 语 


我 们 是 否 成 功 地 维护 了 和 最 初 提 出 的 “美的 理念 ”(te ideals of beauty) 
一 致 的 数据 服务 ? Crimespotting 项 目的 犯罪 报告 数据 生动 有 趣 ， 而 且 害 
期 激励 关注 的 居民 发 邮件 ， 并 支持 邮件 告警 订阅 服务 的 人 数 达 到 几 百 
人 。 犯 罪 对 任何 城市 居民， 虱 是 一 项 严重 的 问题 ， 而 它 对 于 像 奥 克 主 这 
样 因 犯 罪 事 件 而 昭著 的 城市 来 说 ， 犯 罪 对 于 人 们 的 生活 影响 尤其 重要 。 
我 们 发 布 的 数据 有 用 吗 ? 


Ano Oakland Crimes potting: Police Beat O4X 


Lair le > loeo /roaktana cr mespomng org /beat/c AX 


loot Repor Gals last pubiismed by Oakland Police: 7 deys ago 
Oakland 


crimespotting o Map — Crime Recon 8 A 




















Police Beat 4X 
Gomact your oftcer tor boat 4X. 
Oownicadedie screadsheets and RSS feeds of reporna from Deal 4X ave avedable 
below. Subscribe to feeds in your preferred ed reading sofware. of downioad 
soraadaneats tor use in Microsoft EX OpenOffice Calc. Annie Numbers, and otner 
sOrtadeheet programs 

1 News feed of recone i beat 4X 
Spreacinecss of [LITT 1200113 / M last menm 3.00073 in beat 4X 


Reports in tho Past Week 


Mis comet" 
Virtual Earths 
i 


"- 











图 11-10: 巡警 区 专用 页 面 允 许 居 民 为 在 当地 巡逻 的 警官 提供 反馈 COL 
彩 图 35) 

我 们 定期 收 到 来 自 使 用 新 闻 订 阅 的 居民 的 来 信 ， 并 且 向 那些 居住 在 
事件 发 生地 的 居民 发 送 邮件 告警 或 者 为 其 推荐 新 的 居住 社区 。 我 们 是 否 
足够 自由 或 者 公开 ? 

所 有 的 网 站 信息 都 是 可 以 通过 适合 于 很 多 种 大 范围 的 技术 专业 性 的 
形式 获得 ， 从 简单 的 每 日 邮件 订阅 或 者 电子 表单 到 更 复杂 的 新 闻 Feed 订 
阅 方式 或 者 基于 XML 的 API。 该 项 目 是 有 收获 的 、 成 功 的 ， 它 创造 了 我 
们 认为 对 本 地 居民 最 有 利 的 数据 服务 。 

通过 创建 并 继续 维持 奥克兰 的 Crimespotting 项 目 ， 我 们 在 社会 和 政 
治 方面 学 到 了 重要 的 一 课 。 为 了 满足 居民 相互 关联 、 相 互通 信 的 期 望 ， 
城市 和 政府 信息 正 逐 渐 迁 移 到 网 络 上 。 随 之 而 来 的 是 关于 “数据 是 公共 
产品 ”的 理念 ， 正 如 FortiusOne 公 司 总 裁 Sean Go rman 2009 年 早期 在 一 个 
重要 的 博客 上 发 布 的 帖子 所 解释 的 
(htp: //blog.fortiusone.com/2009/01/28/data-is-the-public-good-data-is-the- 




















infrastructure-data-is-the-stimulus/) 。 为 “专业 消费 者 ”(posumen 提 供 的 数 
据 可 视 化 和 分 析 工 具 的 增长 使 得 数据 变 得 更 加 重要 ， 因 而 可 预测 的 、 值 
得 信任 的 网 上 原始 数据 ， 则 更 倾向 于 过 于 受 束缚 的 基于 Web 的 用 户 界 
面 。 同 时 ， 人 们 也 逐渐 精心 设计 关于 发 布 原始 数据 的 新 兴 的 实践 和 约 
定 ， 而 且 在 很 多 情况 下 ， 为 了 把 注意 力 转移 到 问题 的 形式 或 者 可 达 性 
上 ， 那 些 感 兴趣 的 、 有 能 力 的 非 项 目 成 员 的 介入 是 必需 的 。 事 实 胜 于 雄 











辩 ， 而 主动 为 公众 的 利益 而 公开 和 改进 数据 所 做 出 的 改变 是 最 有 效 的 。 
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Jeffrey Heer 

必须 承认 的 是 ， 我 不 信任 美丽 的 数据 ， 至 少 在 没有 上 下 文 的 情况 
下 ， 我 是 不 信任 它 的 。 第 二 次 世界 大 战 之 前 ， 荷 兰 政府 收集 了 详细 的 民 
事 记 录 ， 登 记 备 案 了 和 荷兰 居民 的 人 口 统计 信息 。 这 种 做 法 的 出 发 点 很 
好 ， 收 集 人 们 的 注册 信息 来 为 政府 服务 管理 提供 信息 。 然 而 ， 德 国 入 侵 
后 ， 这 些 数据 被 用 于 有 效 地 锁定 少数 族 裔 (Coes 2006) . 19404F Hil fay = 
还 有 大 约 14 万 的 犹太 人 ， 而 其 中 只 有 大 约 3.5 万 人 幸存 了 下 来 。 

虽然 这 种 例子 也 许 有 点 极端 ， 但 对 我 来 说 ， 这 种 发 人 深 省 的 故事 说 
明了 一 个 基本 的 道理 : 数据 之 “ 美 " 取 决 于 这 些 数 据 如 何 为 人 所 用 。 数 据 
蕴涵 着 帮助 人 们 改进 对 事物 的 理解 ， 并 做 出 更 优 决策 的 潜能 ， 因 此 数据 
是 “美丽 ”的 。 要 让 数据 实现 其 价值 ， 需 要 做 到 收集 并 保护 正确 的 数据 ， 
让 合适 的 用 户 访问 并 理解 使 用 它们 。AOL 公 布 的 匿名 性 不 足 的 查询 搜索 
数据 所 造成 的 骚动 是 近期 关于 数据 保护 失败 的 一 个 实例 。 

幸运 的 是 ， 绝 大 多 数 例子 并 不 像 这 两 个 故事 这 么 悲惨 。 实 际 上 ， 更 
普遍 的 现象 是 数据 都 被 浪费 了 : 把 数据 收集 并 存储 在 数据 仓库 中 一 一 有 
时 付出 的 基础 设施 代价 很 高 一 一 但 还 是 尚未 被 充分 利用 。 对 于 公司 和 政 
府 ， 不 断 衰 竭 的 数据 意味 着 机 会 的 错失 以 及 很 低 的 投资 回报 率 。 数 据 的 
价值 和 人 们 从 中 抽取 出 有 价值 信息 并 用 它 来 指导 实际 行动 的 能 力 成 正 
[Es 


























然而 有 些 自 相 矛 盾 的 是 ， 一 些 数据 集 拥有 的 “美丽 ”( 或 者 潜在 美 ) 
要 高 于 其 他 数据 。 显 然 ， 选 择 收 集 什么 数据 以 及 如 何 设计 数据 存储 的 基 
础 设施 、 模 式 、 访 问 机 制 决定 了 在 避免 数据 给 人 们 带 来 伤害 的 同时 ， 激 
发 数据 给 人 们 带 来 信息 和 局 发 的 潜能 。 但 是 ， 擎 越美 丽 凯 峰 的 “最 后 一 
(Ist mile) 是 人 类 -信息 相互 交互 的 问题 ， 即 为 了 支持 对 数据 的 分 析 和 
通信 ， 人 们 应 该 如 何 展 示 和 探索 数据 。 

本 章 将 介绍 一 个 交互 式 可 视 化 应 用 的 案例 研究 ， 以 帮助 培养 人 们 实 
际 应 用 美丽 的 数据 : sense.us 的 设计 ， 它 是 一 个 对 美国 的 150 年 人 口 普 低 
数据 进行 协同 式 探索 和 理解 (snse-making) 的 Web 应 用 。 我 将 谈 到 建立 庞 
大 的 、 政 府 部 门 收集 的 数据 集 的 步骤 一 一 关 国 人 口 普查 一 一 而 且 通 过 一 
组 交互 可 视 化 方式 使 所 有 用 户 都 可 以 访问 这 些 数据 集 。 我 还 将 描述 我 们 
设计 的 分 译 和 讨论 机 制 ， 该 机 制 的 设计 目的 是 吸引 数据 的 浏览 者 们 在 对 
社会 的 理解 和 思考 方面 组 成 一 个 群体 。 我 们 的 目标 是 通过 培养 集体 数据 
分 析 来 实现 数据 的 潜在 之 美 。 

















可 视 化 和 社会 数据 分 析 


可 视 化 通常 用 于 构建 数据 的 涵义 来 帮助 理解 这 些 数据 ， 探 索 这 些 数 
据 并 交流 结果 发 现 。 为 了 处 理 可 视 化 信息 ， 人 类 神经 系统 的 很 大 一 部 分 
已 经 得 到 进化 ， 在 人 类 大 脑 中 ， 超 过 70% 的 神经 末梢 和 40% 的 皮质 在 视 
觉 处 理 中 相互 关联 (Wre 2004) 。 可 视 化 设计 充分 利用 了 这 种 视觉 处 理 
系统 的 能 力 ， 使 人 们 可 以 更 容易 理解 并 发 现 蕴 藏 于 数据 中 的 趋势 、 模 式 
和 异常 信息 

要 注意 的 是 ， 这 不 是 手工 制作 一 个 “花哨 的 图 形 ” 的 问题 。 通 常 
一 个 简单 的 表格 或 条 形 图 (sns 3D 虚 饰 frills 和 镜面 高 光 ) 能 提供 很 好 的 演 
示 效 果 。 这 其 中 的 特技 在 于 为 现 有 的 数据 和 任务 选择 合适 的 视觉 展现 形 
zs 

一 个 富有 启发 性 的 例子 是 Anscombe 的 “四 重 检 测 ”(Qartet)， 它 采用 由 
统计 学 家 Francis Anscombe 收 集 的 四 类 数据 集 来 说 明 数 据 可 视 化 的 重要 
性 (Ascombe 1973) 。 使 用 通用 的 统计 学 描述 方式 ， 这 四 类 数据 集 看 起 
来 似乎 完全 一 样 〈 见 图 12-1) 。 但 是 ， 对 这 些 数据 的 绘图 展示 就 可 以 马 
上 揭示 出 这 些 数据 集 之 间 的 差异 。 

还 有 其 他 作家 详细 地 描述 了 有 效 的 视觉 设计 是 如 何 辅助 人 们 理解 、 
沟通 和 制定 决策 。Tufte (1997) 提出 了 著名 的 论断 ， 如 果 当 时 工程 师 创 
造 了 更 好 的 对 火箭 缺陷 数据 的 视觉 描述 ， 挑 成 者 号 航天 飞机 的 灾难 可 能 
可 以 避免 (虽然 该 论断 也 饱 受 争 议 ， 见 Robison 等 2002) 。 




















可 视 化 研究 人 员 列 出 了 “视觉 变量 ”(vsual variables) 的 空间 〈 如 位 置 、 
长 度 、 面 积 、 形 状 和 色彩 ) 这 些 变 量 可 以 用 于 在 可 视 化 显示 中 对 数据 编 
码 (Brtin 1967，Cart 等 1999) 。 他 们 还 研究 了 当 这 些 视觉 变量 应 用 于 不 
同类 型 的 数据 ， 如 范围 的 〈 名 字 ) 、 顺 序 的 (基于 排序 有 序 的 ) 和 定量 
的 (数值 的 ) 数据 时 ， 人 们 对 其 解码 可 以 达到 的 精确 程度 。 举 个 例子 ， 
如 在 条 形 栏 或 散 点 图 中 所 使 用 的 空间 位 置 ， 有 助 于 对 这 些 数据 的 每 一 种 
类 型 进行 解码 ; 当 采 用 色彩 对 不 同 的 标签 进行 分 类 时 ， 它 的 区 分 度 很 
高 ， 而 用 于 描述 数值 时 ， 它 的 区 分 度 则 很 低 。 
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图 12-1: Anscombe 的 “四 重 检 测 ”(Qatteb ， 包 含 统 计 学 上 相似 的 
数据 集 来 说 明 如 何 利 用 可 视 化 帮助 人 们 理解 
本 着 这 种 思想 ， 绝 大 多 数 可 视 化 集中 于 研究 可 视 化 应 用 的 感性 和 认 





解 ， 可 能 会 提供 上 下 文 知识 来 帮助 加 深 理解 。 由 于 参与 者 达成 共识 ， 他 
们 可 以 从 同龄 中 互相 学 习 。 此 外 ， 有 些 数据 集 很 大 ， 由 一 个 人 完全 深入 
探索 是 不 可 能 的 。 这 意味 着 为 了 全 面色 持 有 意义 的 决策 (snse-making)， 
可 视 化 应 该 也 文 持 社会 交互 。 

基于 这 些 观点 ， 我 和 同事 Martin Watternberg 以 及 IBM 研 究 院 的 
Fernanda Viggas 开 始 调查 用 于 可 视 化 数据 的 用 户 界面 如 何 可 以 更 好 地 促 
进 “ 可 视 化 的 社交 生活 ”。 我 们 开始 启动 研究 项 目 ， 设 计 和 实现 网 站 
sense.Uus， 致 力 于 形成 人 口 统计 数据 的 团体 探索 。 该 网 站 提供 了 一 套 美 
国 过 去 150 年 的 人 口 统计 数据 的 可 视 化 的 解决 方案 ， 以 及 促进 面向 团体 
的 数据 分 析 的 协作 机 制 |。 

在 本 章 的 剩余 部 分 ， 我 将 分 享 sense.us 网 站 的 设计 过 程 ， 包 括 : 我 们 
如 何 选择 和 处 理 数据 ， 开 发 一 套 可 视 化 方案 ， 并 设计 协作 特征 来 促进 社 
区 数据 分 析 。 最 后 ， 观 察 人 们 如 何 通 过 该 系统 协作 构建 数据 。 








数据 


Martin、Fernanda 和 我 以 研究 人 员 的 心态 开始 做 这 个 项 目 : 我 们 希望 
能 够 理解 在 可 视 化 分 析 过 程 中 ， 应 该 如 何 最 好 地 支持 社会 交互 。 我 们 对 
数据 集 的 选择 不 是 预先 确定 的 。 但 是 ， 很 显然 ， 好 的 数据 领域 的 数据 集 
将 会 满足 东 些 特定 的 属性 : 我 们 想 要 大 规模 的 、 真 实 世 界 的 数据 集 ， 它 
们 和 普通 的 大 众 相关 ， 而 且 数 据 直 富 ， 可 以 保证 很 多 不 同 的 分 析 。 根 据 
这 些 标准 ， 人 口 普查 统计 的 数据 看 起 来 很 理想 。 我 还 一 直 对 促使 人 口 统 
计数 据 更 公开 、 可 访问 感 兴趣 : 我 相信 这 是 重要 的 一 个 方面 ， 通 过 它 我 
们 可 以 更 好 地 理解 自己 和 历史 。 

我 通过 美国 人 口 普查 局 的 网 站 (htp: //www.census.gov)7T 4519 z& 3t 
据 。 事 实证 明 ， 这 种 方式 收效 其 微 。 人 口 普查 局 在 各 种 聚集 层次 提供 了 
很 多 不 同 维度 的 数据 集 〈 如 通过 邮政 编码 、 都 市 区 域 ) ， 但 是 只 在 最 近 
几 年 人 口 普 查 才 有 丰富 的 数据 。 我 还 意识 到 自己 在 该 网 站 搜索 数据 时 不 
够 集中 深入 。 人 口 普查 数据 在 过 去 儿 十 年 如 何 收集 和 建 模 的 来 龙 去 脉 ， 
还 吸 符 进一步 了 解 。 例 如 ， 人 口 普查 局 在 收集 数据 过 程 中 使 用 的 问题 以 
及 涉及 的 范围 在 过 去 几 十 年 在 不 断 变 化 ， 意 味 着 即使 该 网 站 包含 茶 个 人 
每 年 的 数据 ， 它 也 并 不 能 保证 这 些 数 据 能 够 很 容易 具有 比较 性 。 

一 般 情 况 下 ， 人 们 在 对 茶 个 数据 领域 有 了 最 基本 的 熟练 程度 之 前 ， 
不 应 该 一 下 子 扎 进 可 视 化 设计 。 因 此 ， 我 的 下 一 个 步骤 是 访问 各 个 领域 
的 专家 们 : 加 州 大 学 伯克利 分 校 的 社会 学 和 人 口 学 部 门 的 同事 ， 那 时 我 
































是 该 部 门 的 研究 生 。 通 过 和 他 们 的 讨论 ， 我 对 人 口 普 查 是 如 何 工 作 以 及 
人 口 学 家 使 用 哪些 数据 源 研 究 人 口 有 了 更 深 的 理解 。 在 这 个 过 程 中 ， 有 
人 为 我 介绍 了 一 个 宝贵 的 资源 : 由 明尼苏达 大 学 人 口中 心 

(htp: /www.ipums.org) 维 护 的 综合 公用 微观 数据 序列 (Itegrated Public 
Use Microdata Series, PUMS) 24 E. IPUMS-USA Hi FE EL f 1850— 
2000 年 的 美国 人 口 普查 数据 。 其 普查 周期 是 10 年 ， 只 有 1890 年 例外 ， 没 
有 普查 数据 ;在 1921 年 这 些 数 据 记 录 在 商业 大 厦 (Cmmerce Building) 被 
大 火 摧毁 。IPUMS 数 据 包含 了 每 10 年 的 代表 性 样本 数据 ， 占 这 10 年 的 人 
口 普查 记录 的 总 样本 数据 的 1% 或 5%。 每 条 记录 代表 人 口 样本 的 某 个 特 
征 人 物 。 在 某 些 情况 下 ， 有 某 些 特征 的 人 物 和 家 庭 被 多 次 代表 ， 因 而 记 
录 需 要 和 不 同 的 权 值 关 联 。 

IPUMS-USA 数 据 库 特 别 吸引 人 之 处 在 于 IPUMS 项 目 为 所 有 的 人 口 统 
计 学 变量 开发 了 统一 的 代码 和 文档 ， 这 有 助 于 随 着 时 间 分 析 变 化 。 这 
种 和谐 化 ?是 一 种 宝贵 的 服务 ， 使 得 能 够 进行 比较 性 分 析 ， 而 且 通 过 扩 
展 ， 可 以 获取 一 些 新 的 洞察 。 然 而 ， 把 分 离 的 数据 应 用 于 共享 模式 的 过 
程 不 可 避免 地 引入 了 人 工 干 预 ， 该 问题 在 后 面 还 会 出 现 。 

诚 如 之 前 所 述 ，IPUMS-USA 数 据 库 包含 413 个 人 口 统计 学 变量 ， 其 
涉及 的 范围 从 普通 的 领域 如 性 别 、 年 龄 、 种 族 、 婚 姻 状 态 和 职业 ， 直 到 
多 少 家 庭 包含 洗衣 机 、 烘 干 机 、 抽 水 马桶 和 电视 ( 见 图 12-2〉。 在 很 多 
情况 下 ， 一 些 变量 只 在 某 几 年 有 数据 记录 ， 而 在 其 他 年 份 ， 这 些 变量 完 
全 没有 被 测量 。 
































图 12-2: 在 IPUMS-USA 数 据 库 中 可 访问 的 人 口 统计 学 变量 的 摘要 

IPUMS 项 目的 宗 则 是 “只 用 它 从 善 ， 不 作恶 ”(ue it for good,never for 
evi)。 幸 运 的 是 ， 在 实施 该 能 言 的 过 程 中 ， 超 出 了 人 们 在 下 载 数据 摘要 
时 必须 点 击 的 复 选 框 。 为 了 保护 个 人 隐私 ， 有 些 数据 的 可 访问 性 受到 了 
限制 。 举 个 例子 ， 不 包含 宗教 从 属 关 系 ， 而 且 详 细 的 人 口 统 计数 据 的 可 
访问 性 也 受到 很 大 限制 ， 尤 其 是 对 于 人 口 密度 低 的 地 区 。 

我 们 决定 采用 IPUMS-USA 作 为 sense.us 应 用 的 主要 数据 来 源 。 使 用 
IPUMS Web 界 面 ， 我 们 首先 选择 了 1850 一 2000 年 的 样本 数据 《〈 不 包括 
1890 年 ) ， 然 后 选择 了 需要 抽取 的 一 组 变量 。 绝 大 多 数 变量 只 是 所 有 人 
口 统计 年 份 的 一 个 子 集 。 为 了 对 长 期 的 变化 进行 可 视 化 探索 ， 我 们 选择 
了 一 组 变量 ， 它 们 至 少 在 一 个 世纪 内 都 是 可 访问 的 。 这 组 变量 由 22 个 变 
量 组 成 ， 包 括 年 龄 、 性 别 、 婚 姻 状态 、 出 生地 《美国 菜 个 州 /地 区 或 者 
其 他 国家 ) 、 职 业 、 种 族 、 学 校 出 勤 率 以 及 地 理 区 域 。 由 于 隐私 约束 ， 
地 理 数 据 仅 仅 局 限于 粗 粒 度 的 区 域 如 新 英格兰 和 美国 西海 岸 。 结 果 数 据 
的 抽取 是 把 520MB 的 Gzip 文件 解压 纵 为 3.3GB 的 文本 文件 。 
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续 的 导入 操作 是 直接 但 繁琐 的 过 程 ， 最 终生 成 了 包含 抽取 出 来 的 可 查询 
形式 的 人 口 统计 数据 ， 保 存在 MySQL 数 据 库 中 。 为 了 帮助 分 析 ， 我 们 
使 用 星 型 模式 来 组 织 数据 (htp: //en.wikipedia.org/wiki/Star schema): 把 
人 口 统计 的 评测 方法 存储 到 一 张大 的 事实 维 表 (fct table)， 该 维 表 的 每 一 
列表 示 一 个 人 口 统计 学 变量 ， 通 过 键 值 表示 变量 的 范围 值 。 维 度 表 集 合 
存储 了 每 个 人 口 统计 变量 采用 的 键 值 的 文本 标签 和 描述 。 

这 种 组 合 方式 提供 了 指导 探索 性 分 析 的 基础 。 我 们 通过 发 布 查 询 生 
成 数据 摘要 ， 这 些 查 询 通过 选 定 的 维度 “向 上 钻 取 ”Clled up) 数 据 。 举 个 
例子 ， 我 们 可 以 通过 对 所 有 其 他 变量 的 样本 人 数 进行 求 和 ， 分 离 出 年 
龄 、 性 别 和 婚姻 状态 的 关系 。 简 而 言 之 ， 我 们 拥有 探索 数据 和 原型 系统 
可 视 化 的 基础 。 











可 视 化 


给 定 人 口 统计 数据 的 大 小 和 范围 ， 我 们 早 就 意识 到 把 单一 的 可 视 化 
设计 应 用 于 所 有 的 数据 可 能 会 导致 某 些 灾难 。 只 要 有 可 能 ， 我 们 就 希望 
把 数据 转换 成 最 简单 的 形式 ， 用 于 支持 广泛 的 分 析 。 由 于 我 们 的 设计 需 
要 面 对 广 泛 的 受众 ， 我 们 创建 了 一 个 可 视 化 数据 集合 的 方法 ， 它 表示 选 
定数 据 的 分 片 。 在 本 质 上 ， 我 们 希望 可 视 化 有 用 ， 同 时 ， 它 又 尽 可 能 地 
简单 。 

因此 ， 我 们 的 设计 哲学 需要 理 清 哪 一 种 数据 集合 可 能 是 最 大 的 兴趣 
点 ， 而 哪 一 种 可 视 化 设计 和 交互 技术 可 以 最 佳 支持 对 这 些 维度 的 积极 探 
索 。 为 了 实现 这 一 点 ， 我 们 开始 同时 探索 数据 本 身 和 可 视 化 设计 空间 。 

在 设计 一 个 界面 来 帮助 别人 探索 数据 之 前 ， 我 希望 首先 能 够 确保 数 
据 本 身 足 够 有 趣 ， 使 得 别人 愿意 去 探索 它 。 我 在 探索 中 采用 了 很 多 种 方 
法 ， 包 括 SQL 查 询 、Excel 和 可 视 化 系统 。 数 据 探索 最 有 用 的 工具 是 数据 
库 可 视 化 系统 Tableau。 使 用 Tableau 工 具 ， 人 们 可 以 把 数据 库 的 各 个 字 
段 通 过 拖 搜 方式 映射 到 视觉 编码 中 ， 然 后 ， 应 用 查询 该 数据 库 ， 对 结果 
进行 可 视 化 披露 一 下 ， 我 是 Tableau 软 件 的 顾问 ) 。 因 此 ， 我 们 可 以 
对 很 多 不 同方 法 构建 可 视 化 原型 系统 〈 见 图 12-3) 。 我 们 生成 了 一 个 庞 
大 的 数据 可 视 化 集合 ， 和 同事 分 享 该 集合 ， 收 集 他 们 的 反馈 。 使 用 真实 
数据 快速 评估 可 视 化 方法 的 能 力 为 我 们 节省 了 很 多 实验 时 间 ， 使 得 能 够 
为 最 后 的 系统 设计 保留 开发 精力 。 




















在 探索 数据 过 程 中 ， 我 记录 下 了 有 趣 的 趋势 、 模 式 和 发 现 的 游离 
点 。 在 某 些 情况 下 ， 有 意思 的 故事 是 在 很 多 维度 的 组 合 下 发 现 的 。 例 
如 ， 通 过 年 龄 和 性 别 对 婚姻 状态 的 统计 结果 说 明了 女性 初次 结婚 的 平均 
年 龄 随 着 时 间 在 增长 ， 在 过 去 一 个 世纪 大 约 增长 了 5 年 。 在 其 他 情况 
下 ， 根 据 单一 数据 类 型 描绘 的 曲线 随 着 时 间 推 移 ， 揭 示 了 很 多 有 意思 的 
故事 ， 如 农民 工 在 劳动 力 市 场 中 的 盛 隧 以 及 全 球 不 同 的 移民 浪 漳 。 一 般 
来 说 ， 我 发现 对 数据 进行 转换 是 很 有 用 的 ， 可 任意 把 数据 看 做 绝对 人 口 
数量 ， 或 者 看 做 是 十 年 内 人 口 普 碍 比例 。 
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图 12-3: 使 用 Tableau 工 具 构建 的 显示 几 十 年 间 婚 姻 状态 分 布 的 原型 系 
统 可 视 化 ( 见 彩 图 36) 
设计 考虑 
有 了 原型 系统 ，Martin、Fernanda 和 我 为 sense.us 应 用 协作 设计 了 交 
互 式 可 视 化 。 在 设计 中 ， 我 们 首先 简单 列 出 了 设计 中 的 一 些 考 虑 。 


培养 个 人 相关 性 

如 果 没 有 人 关心 数据 ， 就 没有 人 会 去 探索 它 。 我 们 假设 熟悉 的 维度 
如 地 理 和 时 间 ， 使 得 用 户 能 够 快速 地 在 数据 和 表单 叙述 中 他 们 自己 (或 
者 和 他 们 相似 的 人 们 ) 。 假 设 我 们 可 以 访问 的 地 理 数据 是 有 限 的 ， 我 们 
集中 于 随 着 时 间 的 变化 来 表示 数据 。 我 们 还 尝试 使 用 交互 技术 ， 使 用 户 
可 以 快速 找到 他 们 感 兴趣 的 数据 记录 ， 如 特定 的 职业 或 国家 起 源 。 

提供 有 效 的 视觉 编码 

自然 而 然 ， 我 们 希望 使 用 视觉 编码 来 帮助 理解 数据 。 在 某 些 情况 
下 ， 这 种 工作 任务 直截了当 : 如 果 想 要 检验 两 个 数值 之 间 的 关联 ， 我 将 
很 难 找 到 比 散 点 图 更 好 的 表示 方式 。 在 这 种 情况 下 ， 我 们 需要 做 出 很 多 
折 中 权衡 。 

对 随 着 时 间 变 化 进行 可 视 化 的 一 个 通用 方法 是 使 用 线条 图 。 但 是 ， 
在 一 个 线条 图 中 显示 200 多 个 职业 会 导致 封闭 的 线条 之 间 非 常 混乱 。 取 
而 代 之 ， 我 们 选择 堆栈 图 (sacked graph)， 它 们 可 以 把 一 个 图 共 加 到 另 一 
个 图 上 ， 从 而 可 以 对 多 条 时 间 序 列 视 觉 上 求 和 《 见 图 12-4 和 图 12-5) 。 
我 们 的 这 种 选择 是 受到 Martin 的 页 儿 名 回 导 图 (Bby Name Voyager) FI #1 
化 的 影响 ， 婴 儿 名 向 导 图 是 关于 岗 儿 名 字 受 欢迎 程度 的 堆栈 图 ， 在 网 上 
变 得 超 乎 寻常 地 受 欢迎 (Wttenberg 和 Kriss 2006) 。 扒 栈 图 可 以 清晰 地 显 
示 聚 集 模式 ， 并 且 可 以 很 优雅 地 支持 交互 过 小 ， 但 是 其 代价 模糊 了 个 人 
倾 同 一 一 对 于 某 个 倾向 的 理解 是 由 栈 序 列 的 曲线 带 来 的 偏见 生成 的 。 相 
反 地 ， 我 们 确定 点 击 一 条 序列 可 以 过 滤 出 对 它 的 显示 ， 因 此 ， 通 过 这 种 


























方式 ， 其 趋势 可 以 很 容易 被 隅 离 出 来 进行 显示 。 

进一步 地 ， 我 们 遵循 了 构建 的 文化 约定 ， 通 过 很 多 观察 者 所 熟悉 的 
方式 对 数据 进行 视觉 编码 〈 比 如 ， 用 赣 色 表示 男孩 ， 粉 红色 表示 女 
孩 ) 。 当 考虑 如 何在 很 多 人 口 统计 学 变量 间 对 交互 进行 可 视 化 ， 而 不 是 
试图 发 明 一 些 完全 新 前 的 东西 ， 我 们 采取 的 是 对 人 口 统计 学 家 已 经 普遍 
使 用 的 图 形 类 型 一 一 人 口 金字 塔 进行 扩展 。 

使 每 种 展示 方式 都 与 众 不 同 

在 东 些 情况 下 ， 我 们 使 用 了 相同 的 可 视 化 类 型 来 显示 不 同 的 数据 类 
型 。 例 如 ， 对 于 职业 和 出 生地 数据 ， 我 们 都 使 用 了 堆栈 图 。 然 而 ， 我 们 
希望 每 一 种 展示 方式 在 视觉 上 都 与 众 不 同 ， 这 样 用 户 就 可 以 一 眼 识别 出 
它们 。 结 果 是 ， 我 们 为 每 一 种 可 视 化 都 构建 了 唯一 的 彩 板 。 

支持 直觉 探索 

为 了 塔 养 交 互 探 索 ， 我 们 希望 使 得 接口 操作 尽 可 能 地 简单 。 对 于 堆 
栈 图 ， 我 们 让 用 户 输入 搜索 关键 字 对 感 兴趣 的 项 进行 得 询 。 在 其 他 情况 
下 ， 我 们 提供 了 一 组 下 拉 沫 单 对 维度 进行 选择 或 者 过 滤 。 我 们 还 包含 了 
控件 来 选择 绝对 人 数 计数 和 范 化 的 比例 。 更 高 级 的 控制 可 能 实现 ， 而 且 
我 们 发 现 提 供 该 级 别 的 控制 能 够 促使 通过 整洁 易 用 的 接口 所 做 的 一 系列 
探索 。 

WIRE 5 pU 

除了 培养 个 人 相关 性 ， 我 们 希望 和 该 系统 的 交互 有 趣 好 玩 。 因 此 ， 
我 们 致力 于 采用 优雅 高 效 的 数据 表示 方式 。 我 们 设计 了 交互 技术 和 动画 









































转换 技术 来 提高 啊 应 和 动态 性 效果 ， 但 是 我 们 不 想 过 度 揽 用 这 种 文体 特 
征 。 

我 们 希望 增强 而 不 是 骚扰 数据 探索 。 我 们 不 断 改 变动 画 形 式 和 计时 
方式 ， 和 直到 设计 上 “感觉 民 好 ”。 持 续 1 秒 钟 的 动画 提供 了 不 需要 放 慢 分 
析 的 过 程 ， 观 看 者 束 可 以 跟 上 的 视觉 转换 过 程 。 

可 视 化 设计 

首先 通过 参与 自己 的 数据 探索 ， 我 们 可 以 确定 自己 最 感 兴趣 的 数据 
维度 。 为 了 设计 一 组 人 口 统计 数据 的 可 视 化 解决 方案 ， 我 们 把 这 些 观察 
应 用 到 设计 考虑 中 。 

LAE SIS: 

ee ee iat 
〈 见 图 12-4) 的 家 动力 的 组 成 部 分 。 每 条 序列 曲线 表示 一 种 职业 
性 别 进一步 细 分 ， 蓝 色 代 表 男 性 ， 粉 色 代表 女性 。 用 户 可 以 通过 点 击 一 
条 序列 曲线 ， 只 显示 其 相应 的 职位 ， 或 者 通过 输入 关键 字 碍 询 来 过 滤 掉 
与 查询 不 匹配 的 职位 。 我 们 还 包含 了 下 拉 荣 单 ， 通 过 性 别 进行 过 滤 ; 在 
绝对 人 数 计数 和 劳动 力 比例 之 间 进 行 视 图 转换 。 这 些 操 作文 持 对 聚集 趋 
势 〈 如 第 二 次 世界 大 战 后 涌 入 劳动 力 市 场 的 女性 ) 和 个 人 模式 (如 机 动 
车 工程 师 的 盛事 ) 的 探索 。 
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图 12-4: 工作 向 导 可 视 化 : 左 图 显示 在 过 去 150 年 间 劳 动力 组 成 概 
要 视图 ， 右 图 显示 过 滤 后 农民 工 的 比例 的 视图 〈 见 彩 图 37) 

我 们 很 快意 识 到 仅仅 通过 性 别 对 序列 曲线 进行 着 色 是 不 够 的 。 当 我 
们 过 滤 了 视图 ， 仅 仅 显示 男性 或 者 女性 ， 要 区 分 不 同 的 序列 曲线 变 得 很 
困难 。 一 个 解决 方案 是 通过 任意 方式 改变 色彩 饱和 度 ， 使 得 感官 上 能 够 
区 分 不 同 的 序列 曲线 。Martin 提 出 了 一 种 很 有 技巧 的 变换 方式 : 不 是 随 
意 改变 颜色 ， 而 是 通过 有 意义 的 、 数 据 驱 动 的 方式 来 实现 。 因 此 ， 我 们 
根据 每 个 职业 的 社会 经 济 指数 分 值 来 改变 其 对 应 的 颜色 饱和 度 。 因 此 ， 
平均 收入 越 高 的 序列 曲线 ， 其 颜色 越 深 。 在 实践 中 ， 这 种 编码 方式 工作 
民 好 ， 不 需要 为 显示 增加 误导 或 者 无 意义 的 视觉 特征 ， 而 提高 了 不 同 职 
业 的 识别 度 。 

出 生地 向 导 

“th Æ Hh IR] S" (Brthplace VoyageD 和 工作 癌 导 的 设计 相似 ， 但 是 它 显 
示 的 是 每 个 人 口 统计 年 份 的 美国 居民 的 出 生地 《 见 图 12-5) 。 其 记录 的 
出 生地 或 者 是 美国 某 个 州 和 地 区 或 者 是 其 他 国家 。 交 互 式 控 件 可 以 通过 
查询 关键 字 或 不 同 大 陆 位置 进 行 过 滤 ， 只 显示 绝对 计数 和 比率 。 

数据 可 视 化 支持 对 全 世界 (如 过 去 来 自 欧 洲 的 移民 浪潮 以 及 当前 来 
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图 12-5: 出 生地 向 导 可 视 化 : 左 图 显示 在 过 去 150 年 间 出 生地 的 分 
布 概要 ， 右 图 显示 过 滤 后 欧洲 移民 的 总 数 的 视图 〈 见 彩 图 38) 

在 出 生地 向 导 中 ， 我 们 遇 到 了 和 之 前 相似 的 着 色 问 题 。 在 这 种 情况 
下 ， 我 们 根据 大 陆 位 置 来 分 配色 彩 ， 为 美国 的 各 个 州 增添 一 些 额外 的 色 
彩 。 然 后 ， 我 们 实验 了 改变 色彩 饱和 度 的 不 同方 法 ， 直 到 我 们 可 以 使 用 
在 该 州 出 生 的 人 口 总 数 或 者 所 有 时 间 方 断 的 国家 作为 后 备 数据 。 

美国 人 口 统计 的 国家 地 图 和 散 点 图 

虽然 工作 向 导 和 出 生地 向 导 的 时 间 线 在 设计 上 都 是 使 观察 者 以 历史 
叙述 的 方式 进行 参与 ， 但 是 我 们 希望 能 够 包含 更 加 传统 的 视图 。 我 们 提 
供 了 一 个 着 色 的 美国 国家 地 图 ， 显 示 每 个 州 的 人 口 统计 变量 的 分 布 。 在 
2000—20054F (4K]12-6W ÆRA) ， 在 国家 人 口 变 化 的 标注 地 图 
中 ， 人 们 可 以 看 到 西南 部 地 区 人 口 得 到 显著 增长 ， 而 North Dakota 的 人 
口 却 在 不 断 下 降 。 我 们 还 提供 了 散 点 图 的 表示 方式 来 检测 不 同 变量 之 间 
的 潜在 关联 。 用 户 可 以 把 人 口 统计 变量 映射 到 坐标 轴 的 x 坐标 和 y 和 坐标 ， 
册 圈 的 面积 表示 整个 美国 。 例 如 ， 人 们 可 能 会 注意 到 全 国家 庭 收 入 和 零 











售 额 之 间 的 关联 (如 图 12-6 的 右 图 所 示 〉。 这 些 视图 的 备份 数据 包括 我 
们 从 美国 人 口 统计 局 网 站 上 下 载 的 额外 的 统计 数据 。 

人 口 金字 塔 

最 复杂 的 可 视 化 是 交互 式 的 人 口 金 字 塔 ， 它 是 为 了 同时 帮助 探索 多 
个 人 口 统计 学 变量 而 设计 的 〈 见 图 12-7) 。 人 口 金字 塔 (有 时 称 之 
为 "年龄 -性 别 ?金字 塔 ) ， 是 由 同事 介绍 的 关于 人 口 统计 学 的 一 种 图 
形 。 人 金字塔 说 一 条 牌 下 曲线 划分 为 两 半 : 一 条 曲线 表示 男性 ， 男 一 条 表 
示 女 性 。y 轴 表示 年 龄 ， 通 常 以 5 年 或 10 年 作为 一 组 进行 分 组 ，x 轴 表示 
茶 个 年 龄 段 的 总 人 数 ， 男 性 的 人 数值 朝 一 个 方 同 增 长 ， 而 女性 的 人 数值 
朝 相 反方 回 增 长 (如 图 12-7 的 左 图 所 示 〉。 该 金字 塔 形状 传递 了 人 口 动 
态 信息 : 险峻 的 金字 塔 上 暗示 了 其 死亡 率 比 圆柱 形 的 更 高 。 
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A 126: (AB) 交互 式 国家 地 图 每 个 州 从 2000-- 2005 年 的 人 
PRL, (4B) 美国 散 点 图 显示 了 平均 家 庭 收入 (x 轴 ) HREM (y 
轴 ) ， 新 罕 布什 尔 州 和 特 拉 华 州 有 最 高 的 零售 额 COLE B39) 

我 们 创建 了 一 个 交互 式 金字 塔 ， 除 了 年 龄 和 性 别 ， 它 还 结合 以 下 人 
口 统计 变量 : 地 理 区 域 、 种 族 、 婚 姻 状 态 、 学 校 出 席 率 和 收入 水 平 。 该 
金字 塔 的 两 边 默认 通过 性 别 来 划分 数据 。 我 们 放宽 了 这 种 限制 ， 增 加 了 








下 拉 菜 单 ， 通 过 该 菜单 ， 用 户 可 以 选择 一 个 人 口 统计 学 变量 ， 把 该 变量 
对 应 的 〈xy) 两 个 值 映射 到 金字 塔 的 两 条 边 上 。 比 如 ， 用 户 通 过 把 美 
国 西部 海岸 放 到 金字 塔 一 边 ， 而 把 新 英格兰 放 在 男 一 边 的 方式 来 观察 地 
理 区 域 。 

我 们 还 引入 了 彩 图 编码 菜单 :选择 一 个 人 口 统计 变量 把 金字 塔 的 两 
条 边 转 换 为 描述 变量 值 的 流行 率 (pevalence) 的 堆栈 图 。 例如， 用 户 可 以 
以 学 校 出 勤 率 进 行 统计 ， 用 于 查看 学 校 人 口 出 勤 率 分 段 情 况 ( 如 图 12-7 
的 右 图 所 示 〉。 我 们 为 每 个 变量 选择 一 个 与 众 不 同 的 彩 板 ， 只 要 可 能 就 
依赖 于 已 有 的 文化 约定 (如 蓝 色 = 男 性 ， 粉 色 = 女性 ) ， 使 用 在 线 工 具 
ColorBrewer(http: //colorbrewer.org) 来 确定 其 他 情况 的 颜色 选择 。 我 们 
使 用 灰色 带 表 示 数 据 丢 失 或 者 未 知 值 。 
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图 12-7: 人 口 金字 塔 可 视 化 : (AB) 2000 年 的 每 个 年 龄 组 的 男性 
和 女性 的 总 人 口 数 量 的 比较 ，《〈 右 图 ) 2000 年 学 校 出 席 人 数 的 分 布 ( 标 
注重 点 突出 了 成 人 教育 的 流行 率 ) 《〈 见 彩 图 40) 金字 塔下 方 的 时 间 线 使 

得 可 以 在 整个 人 口 统 计 期 间 进 行 时 间 探 索 ， 而 回放 特征 使 金字 塔 可 以 随 
时 间 动 态 变化 。 举 个 例子 ， 随 着 时 间 对 人 口 变化 的 动画 显示 显著 突出 了 
战 后 期 间 


社会 出 现 的 婴儿 高 潮 。 由 于 多 层次 色彩 和 泡沫 式 动 画 的 结合 ， 用 户 
亲切 地 把 我 们 的 人 口 金 字 塔 重 命名 为 "Georgia O'Keefel f zr] (Iva 
lamp)。 

最 后 ， 我 们 支持 四 种 尺度 来 衡量 数据 : 人 口 总 数 、10 年 内 人 口 比 
率 、【〔 人 金字 塔 ) 图 面 内 (pnel) 比 率 ( 当 金字 塔 两 边 不 协调 时 有 用 〉 和 年 
龄 组 比率 (为 了 探索 不 同年 龄 间 的 比率 区 别 ) 。 我 们 发 现 每 一 种 衡量 尺 
度 都 有 助 于 揭示 某 些 特定 的 故事 。 例 如 ， 年 龄 组 比率 显示 说 明了 年 纪 大 
的 男人 比 年 纪 大 的 女人 更 容易 结婚 ， 推 测 原 因 是 女人 平均 活 得 更 长 ， 因 
MBA TFA. 

实现 细节 

我 们 把 每 一 种 可 视 化 作为 Java Applet(Java 应 用 小 程序 ) 实现 ， 这 样 
我 们 可 以 把 它 宜 入 到 Web 页 面 。 选 择 Java 而 不 是 Flash， 一 部 分 是 由 于 性 
能 原因 ， 但 更 重要 的 是 当时 有 现成 的 Java 可 视 化 框架 。 堆 栈 图 和 人 口 金 
字 塔 是 通过 开源 工具 包 Prefuse(http: //prefuse.org) 构 建 的 。 每 一 种 可 视 
化 是 通过 从 人 口 统计 数据 库 中 抽取 出 来 的 纯 文本 文件 来 支持 的 。 对 于 人 
口 金字 塔 ， 我 们 为 每 种 可 能 的 人 口 统计 变量 组 合生 成 了 一 个 文件 ， 预 计 
算数 据 的 所 有 相关 投影 。 这 种 方式 避免 了 在 服务 器 端 处 理 数据 的 需求 ， 
生成 方便 管理 的 存储 历史 : 虽然 刚 开始 数据 库 包 含 3GB 多 的 数据 ， 在 最 
后 部 署 时 数据 减少 到 仅仅 稍 多 于 3MB! 当然 ， 这 种 方法 确实 存在 其 局 限 
性 : 它 阻 碍 了 用 户 探索 新 的 人 口 统计 变量 组 合 ， 并 且 使 得 要 求 服务 器 端 
处 理 数据 的 可 视 化 变 得 复杂 。 























协作 


因而 ， 我 们 创建 了 sense.us 网 站 ， 它 通过 协作 分 析 机 制 对 可 视 化 进行 
耦合 〈 见 图 12-8) 。 左 图 是 可 视 化 Applet〈 见 图 12-8 中 的 a) 和 标注 工具 
〈 见 图 12-8 中 的 b) 。 右 图 提供 了 图 形 化 的 书签 线索 〈 见 图 12-8 中 的 

， 提 供 了 用 户 保 存 的 访问 路 径 以 及 显示 和 当前 视图 相关 评论 的 讨论 
区 域 ( 见 图 12-8 中 的 d 和 e〉。 我 们 通过 一 组 协作 特征 来 增强 可 视 化 ， 
一 点 在 后 面 会 详细 描述 ， 视 图 分 享 、 双 向 链接 讨论 、 图 形 化 标注 、 书 签 
线索 和 以 评论 列表 和 用 户 行为 个 人 档案 生成 的 社会 导航 。 

视图 分 享 

当 围绕 可 视 化 协作 时 ， 我 们 认为 参与 者 看 到 的 必须 是 相同 的 视觉 环 
境 ， 才 能 够 为 其 他 人 的 行为 和 评论 打下 基础 。 为 此 ，sense.us 提 供 了 对 
视图 添加 书签 的 机 制 。 我 们 试 着 通过 把 应 用 绑 定 到 传统 的 Web 书 签 上 ， 
使 它 透 明 化 。 浏 览 器 地 址 栏 总 是 显示 链接 到 可 视 化 的 当前 状态 的 一 条 
URL， 该 URL 由 一 组 过 滤 、 导 航 和 视觉 编码 等 参数 进行 定义 。 随 着 可 视 
化 视图 的 变化 ，URL 也 随 之 更 新 来 显示 当前 状态 〈 见 图 12-8 中 的 f) ; 用 
户 可 以 在 任意 时 刻 剪 切 、 粘 贴 一 条 链接 到 当前 视图 ， 因 而 简化 了 通过 
Email、 博 客 或 者 即时 通信 来 共享 视图 的 过 程 。 为 了 遵循 用 户 期 望 ， 把 
浏览 器 的 前 进 和 后 退 按钮 绑 定 到 可 视 化 状态 ， 这 种 方式 可 以 很 方便 地 导 
航 到 过 去 浏览 的 视图 。 
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图 12-8: sense.us 协 作 式 可 视 化 系统 : a) 交互 式 可 视 化 应 用 小 程 
序 ， 图 形 化 标注 出 当前 选 定 的 评论 。 该 可 视 化 是 按照 性 别 划 分 的 美国 劳 
动力 人 数 的 县 加 式 时 间 序 列 可 视 化 。 该 图 显示 了 军事 职位 的 劳动 力 比 
率 ; b) 一 组 图 形 化 标注 工具 ; c) 保存 的 视图 书签 索引 ; d) 添加 评论 
的 文本 入 口 区 域 ， 可 以 拖 动 书 签到 文本 区 域 ， 为 评论 中 的 视图 增加 链 
接 ; e) 在 当前 视图 添加 相同 主题 的 评论 ; f£) 该 应 用 当前 状态 对 应 的 
URL。 该 URL 随 着 可 视 化 状态 变化 自动 更 新 (MWE AA) 

双 回 链接 讨论 

为 了 设置 可 视 化 相关 话题 ， 我 们 创建 了 称 之 为 “ 双 同 链接 讨 
论 ”(dublylinked discussion) 的 技术 。 该 技术 起 始 于 一 个 独立 的 讨论 页 
面 ， 在 这 里 用 户 可 以 为 某 种 特定 的 可 视 化 状态 《或 视图 ) 添加 评论 。 评 
论 显 示 在 web 页 面 的 右 侧 ， 通 过 线性 的 讨论 话题 进行 组 合 〈 见 图 12-8 中 
的 e) 。 每 条 评论 显示 了 话题 主题 、 评 论文 本 、 作 者 全 名 以 及 评论 时 


间 。 反 击 一 条 评论 可 以 把 可 视 化 切换 到 书签 状态 ， 表 示 该 评论 员 已 看 过 
的 视图 。 

用 户 可 以 通过 开始 一 个 新 的 话题 或 者 回复 已 有 的 话题 来 增加 评论 。 
当 反 击 “ 新 的 评论 ”或 “回复 ”链接 ， 该 站 点 就 会 显示 一 个 文本 编辑 器 ， 可 
以 通过 它 添加 评论 《〈 见 图 12-8 中 的 d) ， 图 形 化 标注 工具 (后面 讨论 ) 
也 变 成 可 操作 模式 。 在 提交 时 ， 评 论文 本 和 任何 标注 都 会 被 发 送 给 服务 
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个 方 回 的 链接 : 从 可 视 化 到 讨论 。 因 为 用 户 可 以 改变 可 视 化 中 的 参数 和 
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这 种 情况 时 ， 相 关 的 评论 会 目 动 出 现在 右 侧 面板 。 我 们 的 直觉 是 这 
种 “ 双 回 链接 ?讨论 界面 结合 了 独立 的 和 瞬 套 的 讨论 的 各 个 方面 ， 有 助 于 
为 可 视 化 催 定 基础 ， 并 促使 可 视 化 本 吴 变 成 一 种 社交 场所 。 

我 们 很 快意 识 到 书签 机 制 不 足以 文 持 双 同 链接 讨论 。 为 了 观察 从 一 
种 可 视 状 态 链接 到 该 视图 的 所 有 评论 所 面临 的 挑战 ， 让 我 们 以 图 12-8 的 
可 视 化 为 例 。 当 用 户 在 最 上 层 搜 索 框 输入 “military”( 军 事 ) 〈 见 图 12-8 
中 的 f) ， 他 看 到 所有 以 “military” 字 符 串 开头 的 职位 标题 。 而 该 用 户 如 
有 末 只 输入 “mili”， 他 看 到 的 是 所 有 以 “mil" 开 头 的 标题 一 一 但 是 其 结 条 是 
和 之 前 完全 相同 的 职位 信息 。 不 同 的 参数 设置 生成 不 同 的 URL 结 果 ， 但 
古 提供 完全 相同 的 可 视 化 视图 。 从 更 广义 上 说 ， 参 数 设置 可 能 不 包含 一 
对 一 的 可 视 化 状态 映 冉 。 因 此 ， 为 了 对 视图 添加 评论 ， 我 们 需要 一 种 过 





























引 机 制 ， 它 可 以 识别 相同 的 可 视 化 状态 ， 虽 然 其 参数 表现 形式 不 同 。 

我 们 通过 区 分 两 种 类 型 的 参数 来 解决 索引 问题 : 过 滤 参 数 和 视图 参 
数 。 过 小 参数 确定 哪些 数据 元 素 在 显示 中 可 见 。 我 们 不 是 直接 索引 过 滤 
参数 ， 而 是 通过 记录 哪些 数据 项 当前 可 见 来 索引 应 用 的 过 滤 状 态 ， 因 此 
可 以 捕获 不 同 的 过 滤 参 数 来 最 终生 成 相同 的 过 滤 状 态 的 情况 。 而 视图 参 
数 则 是 调整 视觉 映射 方式 ， 如 选择 范 化 的 或 绝对 的 坐标 轴 尺 度 。 我 们 当 
前 的 系统 直接 索引 了 视图 参数 。 书 签 机 制 同时 基于 过 滤 状 态 和 视图 参 
数 ， 通 过 计算 概率 唯一 的 SHA-1 散 列 值 实现 这 两 种 参数 的 索引 。 通 过 将 
散 列 值 作为 键 值 ， 即 可 检索 当前 可 视 化 状态 的 评论 。 

通过 图 形 化 标注 来 指向 标识 

在 物理 协作 中 ， 人 们 通常 通过 言谈 举止 ， 尤 其 是 指向 某 个 物体 来 表 
示 这 个 物体 ， 交 谈 该 话题 。 在 分 布 式 、 异 步 Web 上 下 文中 ， 图 形 化 标注 
可 以 发 挥 相似 的 通信 作用 。 我 们 假设 图 形 化 标注 对 于 指向 行为 和 有 趣 的 
评论 都 将 非常 重要 。 为 了 给 评论 增加 图 形 化 元 素 或 者 指向 感 兴趣 的 某 个 
特征 ， 用 户 可 以 使 用 绘图 工具 〈 见 图 12-8 中 的 b) 来 标注 评论 的 视图 。 
这 些 工具 允许 在 可 视 化 视图 中 绘制 自由 格式 的 笔墨 、 线 条 、 形 状 和 文 
本 。 这 些 工具 和 那些 表示 工具 如 Microsoft PowerPoint 相 似 ， 目 的 是 充分 
利用 用 户 对 于 系统 的 熟练 程度 。 包 含 标 注 的 评论 是 通过 在 评论 列表 中 作 
者 名 字 的 左 侧 显 示 一 个 小 图 标 来 表示 〈 见 图 12-8 中 的 e》。 当 鼠标 号 停 
在 一 条 标注 的 评论 上 时 ， 该 评论 将 以 黄色 突出 显示 ， 并 呈 手 形 光 标 显 
示 。 因 此 ， 点 击 包 含 标注 的 评论 区 域 会 显示 标注 ， 页 面 亮 度 变 瞳 ， 使 得 





























评论 区 域 变 得 透明 。 再 次 点 击 评论 〈 或 者 点 击 不 同 的 评论 ) 将 会 删除 当 
前 的 标注 和 高 亮 。 

图 形 化 标注 的 形式 是 在 可 视 化 上 绘制 矢量 图 形 。 当 提交 一 条 新 的 评 
论 时 ， 浏 览 器 从 可 视 化 应 用 小 程序 请 求 当前 标注 (如 果 有 的 话 ) 。 该 标 
注 是 以 XML 格式 保存 ， 然 后 通过 gzip 压 缩 ， 以 Base64 字 符 串 表示 方式 编 
码 ， 然 后 传 给 浏览 器 。 如 果 后 期 从 服务 器 检索 到 评论 ， 编 码 过 的 标注 就 
以 JavaScript 变 量 的 形式 保存 在 浏览 器 中 。 当 用 户 请 求 显示 某 条 标注 ， 该 
编码 过 的 标注 就 会 传递 给 应 用 小 程序 ， 然 后 应 用 小 程序 对 其 解码 并 绘 
图 。 

我 们 称 这 种 方法 为 几何 学 标注 ， 类 似 于 在 可 视 化 表现 方式 上 履 盖 了 
一 层 “ 乙 酸 纤 维 层 "， 它 和 数据 相关 的 标注 不 同 ， 后 者 直接 和 底层 数据 关 
联 。 我 们 选择 实现 自由 格式 的 标注 机 制 ， 因 此 ， 我 们 可 以 在 无 约束 方式 
下 ， 首 先 研 究 指 向 行为 。 这 种 方式 除了 为 我 们 提供 自由 表达 方式 ， 几 何 
学 标注 还 包含 技术 优势 : 它 允 许 对 整个 可 视 化 重用 相同 的 标注 系统 ， 简 
化 实现 并 维持 一 致 的 用 户 体验 。 

收集 和 链接 视图 

在 数据 分 析 中 ， 通 过 观察 数据 ， 对 不 同方 式 进行 比较 是 很 常见 的 。 
mH. CERD 讲 故事 已 经 在 可 视 化 的 社交 应 用 中 发 挥 了 重要 的 作用 。 
绘画 比较 和 讲述 故事 都 需要 能 够 把 多 个 视图 书签 嵌入 到 一 个 评论 中 。 

为 了 文 持 这 种 多 视图 评论 和 叙述 方式 ， 我 们 创建 了 “书签 索 
5|"(bokmark traiD) 向 导 小 工具 。 书 签 索引 在 功能 上 类 似 购物 车 : 用 户 通 

















过 导航 访问 站 把， 她 可 以 点 击 专门 的 “添加 视图 ”链接 ， 把 当前 视图 添加 
到 书签 的 图 形 列 表 〈 见 图 12-8 中 的 c) 。 任 意 个 数 的 可 视 化 书签 都 可 以 
增加 到 一 条 索引 书签 中 。 可 以 命名 并 保存 一 条 书签 线索 ， 使 得 其 他 用 户 
可 以 访问 。 

当做 出 包含 多 个 视图 的 链接 的 评论 时 ， 书 签 线索 向 导 小 工具 还 可 以 
作为 短期 的 存储 机 制 。 从 书签 线索 中 拖 动 一 个 缩 上 略图 ， 把 它 放 入 一 个 文 
本 区 域 ， 为 书签 视图 创建 一 条 超 链 接 ; 然后 ， 用 户 可 以 直接 在 文本 编辑 
器 中 编辑 或 删除 链接 文本 。 当 鼠标 巧 浮 在 链接 文本 上 时 ， 显 示 该 链接 视 
图 的 技巧 提示 小 图 标 。 

意识 和 社会 导航 

术语 “社会 导航 ”(Scial Navigation) 指 的 是 基于 别人 的 行为 或 建议 进行 
导航 的 倾 回 。 在 Web 上 ， 为 了 提供 额外 的 导航 选项 ， 这 种 导航 方式 可 以 
通过 显示 其 他 用 户 的 使 用 历史 来 实现 。 我 们 设计 了 sense.us 应 用 来 支持 
通过 评论 列表 和 显示 用 户 最 近 行 为 的 个 人 档案 页 面 的 社会 导航 。 评 论 列 
表 提 供 了 该 系统 用 户 做 出 的 所 有 评论 的 一 个 可 搜索 集合 ， 可 以 对 该 列表 
过 滤 ， 从 而 集中 于 单方 面 的 可 视 化 〈 见 图 12-9) 。 评 论 列表 页 面包 括 文 
本 和 每 个 评论 的 可 视 化 状态 的 小 图 标 头 像 。 巧 停 在 小 图 标 上 可 以 生成 反 
巧 小 提示 ， 图 像 也 变 大 了 。 点 击 评论 链接 会 把 用 户 融 到 该 评论 的 可 视 化 
状态 ， 显 示 该 评论 中 包含 的 任意 标注 。 发 表 评 论 的 作者 名 字 链 接 到 他 的 
个 人 信息 页 面 ， 该 页 面包 括 他 的 五 个 最 新 评论 话题 ， 以 及 五 条 最 新 保存 
的 书签 线索 。 这 种 视图 还 标识 了 从 用 户 发 表 的 上 一 条 评论 来 开始 ， 该 话 
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题 的 评论 数量 ， 这 种 方式 允许 用 户 监 测 他 们 所 参与 讨论 的 话题 的 相关 动 





虽然 可 以 有 更 复杂 细致 的 社会 导航 机 制 ， 但 是 我 们 希望 仅仅 通过 这 
些 基 本 的 选项 来 观察 系统 的 使 用 方式 。 我 们 对 观察 数据 驱动 的 探索 和 社 
会 导航 之 间 的 相互 影响 特别 感 兴 趣 。 当 用 户 探索 数据 时 悄悄 检索 讨论 ， 
可 以 为 探索 过 程 引 入 潜在 可 能 相关 的 谈话 。 同 时 ， 评 论 列表 和 最 近 话 题 
动态 可 能 有 助 于 用 户 找 到 感 兴趣 的 视图 ， 使 得 社交 活动 成 为 数据 探索 的 
催化 剂 。 
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The movement of labor force happened between 1950 and 1960. From this wiew, it appears that 
= deria and secretary jobs underwent agrificant growth. 
» @ by Michael Rogers on The X NL 2006 158 PM 
Big shift after 1950 
1f you look at household worker, youl see the opposte trend. 
D by Jua Hernandez on Fri Nd 21. 2006 10:5? AM 


Big shift after 1950 
7 dso has to do with a shift from bhe collar to white collar werk. 
B by Fred Klein on Wed Aug 2, 2006 10:29 AM 


The bad time 
Around 1829, a bad econmc tme. Many companves were doped. Thats why almost no auditors at that moment. 
Lo by Li Zhang on Wed Avg 2. 2006 8:56 AM 


— The bad time 
1 would agree with thet. 
P by Fred Klein on wed Avs 2, 2006 16:28 AM 


-~ Is this military info right? 
1 would have expected a different pattern for the military, but then again maybe this is just the military industrial complex 
| Growing and growing, 
by Martie Sharp o^ Fs dd 2L 2006 10:15 AM 


— Is this military info right? 
here are labels where T would have expected big jumps. 
@ by Martin Sharp on Pri 3d 21, 2006 10 16 AM 





P»? | 





图 12-9: sense.us 评 论 列表 页 面 ， 评 论 列表 显示 可 视 化 的 所 有 评 
论 ， 提 供 链 到 评论 的 可 视 化 视图 的 链接 ( 见 彩 图 42) 


不 唐 突 的 协作 

我 们 还 遵从 计算 机 支持 的 协作 领域 的 通用 设计 指南 :协作 式 特征 不 
应 该 妨碍 个 人 使 用 。 因 此 ， 我 们 默认 上 并 没有 给 出 视图 标注 。 相 反 地 ， 
可 视 化 的 评论 显示 在 屏幕 右 侧 不 显眼 的 地 方 ， 而 图 形 化 标注 则 是 根据 用 


PRR MEER”. 








« ni] Ee Fl fig dor" 


在 完成 数据 获取 、 设 计 和 系统 实现 步骤 后 ， 我 们 的 网 站 就 可 以 运 
行 ， 准 备 好 让 用 户 “ 现 场 试验 ”。 本 着 一 组 用 户 研 究 的 想法 ， 我 们 部 团 了 
系统 ， 观 察 人 们 对 系统 会 做 出 什么 反应 ， 产 生 什么 样 的 见解 ， 以 及 我 们 
应 该 如 何 改 进 改 站 点 。 

我 们 邀请 了 30 名 用 户 到 我 们 的 实验 室 ， 用 来 观察 他 们 如 何 使 用 
sense.Us 探 索 数据 。 每 个 人 可 以 看 到 其 他 参与 者 对 该 站 点 的 贡献 。 我 们 
还 在 IBM 企 业内 网 现成 部 署 了 sense.us， 这 样 公司 内 所 有 员工 都 可 以 访 
问 。 从 这 些 研究 中 ， 我 们 调查 了 人 们 如 何 参 与 可 视 化 ， 以 及 协作 特征 如 
何 给 入 们 的 探索 市 来 影响 。 下 一 步 ， 我 将 总 结 观察 到 的 一 些 最 有 意思 的 
使 用 模式 。 

寻找 模式 

绝 大 多 数 用 户 的 第 一 反应 是 参与 “寻宝 游戏 ”(savenger hunts)， 获 取 有 
趣 好 玩 的 观察， 通常 是 由 个 人 所 处 环境 所 驱动 。 例 如 ， 用 户 会 搜索 他 们 
自己 或 朋友 或 家 庭 成 员 的 工作 ， 或 者 查看 他 们 祖先 的 出 生地 数据 。 在 探 
索 过程 中 ， 人 们 通常 会 做 出 评论 ， 记 录 他 们 认为 最 有 意思 的 趋势 。 

举 个 例子 ， 参 与 者 注意 到 在 1930 年 酒吧 服务 员 的 人 数 减少 为 零 ， 发 
表 评 论说 其 原因 是 由 于 禁酒 令 。 有 人 发 现在 19 世 纪 从 加 拿 大 移民 的 《〈 美 
ED 人 口 比率 上 升 到 最 高 值 ， 然 后 稳步 下 降 ， 就 咨询 是 什么 原因 导致 了 
这 种 趋势 。 而 另 一 个 用 户 注 意 到 在 大 萧条 后 股票 经 纪 人 数 又 减 ， 留 下 了 




















如 图 12-10 所 示 的 视觉 评论 。 

用 户 还 通过 人 口 金字 塔 发 现 了 有 趣 的 趋势 。 例 如 ， 用 户 探索 了 婚姻 
状态 随时 间 的 变化 〈 见 图 12-11) 。 绿 色 带 和 紫色 带 意味 着 分 离 和 离婚 
的 流行 率 ， 该 比率 在 1960 年 后 显著 上 升 。 一 名 用 户 调研 了 学 校 出 席 率 ， 
发 表 评 论说 从 1960 年 后 ， 成 人 教育 显 音 增长 《如 图 12-7 的 右 图 所 示 ) 。 
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图 12-30: 股票 经 纪 人 的 标注 视图 ， 其 评论 意思 是 “大 萧条 “ 杀 死 ”了 


很 多 经 纪 人 ( 见 彩 图 43) 
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图 12-11: 人 口 金 字 塔 显示 在 1940 年 ( 左 图 ) 4220004 C ED). 每 个 年 

龄 组 的 婚姻 状态 分 布 ( 见 彩 图 44) 
另 一 种 情况 是 ， 一 个 用 户 把 金字 塔 的 两 边 映射 到 大 西洋 中 部 地 区 
《 即 纽约 、 宾 儿 法 尼 亚 州 和 新 译 西 州 ) 和 西海 妾 地 区 的 人 口 〈 见 图 12- 
12) 。 在 1850 年 ,，“ 淘 金 热 ” 年 代 ， 西 海岸 地 区 的 人 口 和 东海 主 地 区 有 很 
明显 的 区 别 ， 前 者 主要 是 年 青 和 中 年 男性 。90 年 之 后 ， 两 个 地 区 的 人 口 
统计 则 更 接近 对 齐 ， 虽 然 有 用 户 提出 西海 恒 地 区 人 口 在 比 统计 的 晚 10 年 
后 才 开 始 平滑 。 


rar 
2" 


~ Atm demon 


B 1212: 人 口 金 字 塔 比较 了 在 1850 年 ( 左 图 ) 4019404 (FR) 
西海 岸 和 大 西洋 中 部 地 区 的 人 口 ( 见 彩 图 45) 

比 起 特定 的 视图 ， 有 些 用 户 则 对 重 现 模 式 更 感 兴趣 。 一 个 用 户 对 探 
索 历 史上 男性 主导 职场 的 职业 生涯 感 兴趣 ， 但 是 发 现在 后 半 个 世纪 ， 女 
性 的 人 数 不 断 增加 。 用 户 系统 性 地 探索 数据 ， 把 视图 保存 在 书签 线索 
中 ， 然 后 命名 为 “女性 的 崛起 "， 并 和 其 他 人 分 享 。 

类 似 地 ， 一 个 更 有 数学 思想 的 用 户 对 于 工作 波动 模式 感 兴趣 ， 他 创 
建 了 一 条 曲线 ， 显 示 工 作 波 动 重 现 概 率 。 另 一 个 用 户 搜索 被 科技 所 取代 
的 职位 ， 如 银行 出 纳 员 和 电话 操作 员 。 每 一 种 情况 ， 其 结果 都 是 通过 多 
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使 一 切 变 得 有 意义 

用 户 观察 了 数据 ， 他 们 通常 会 张贴 问题 寻找 解释 ， 或 者 假设 该 数据 
可 能 导致 产生 某 种 趋势 。 很 多 这 种 问题 和 假设 吸引 了 其 他 用 户 的 回复 ， 
开始 了 对 社会 理解 的 一 个 循环 过 程 。 在 我 们 的 现场 部 署 中 ， 一 个 用 户 对 
散 点 图 评论 咨询 为 什么 新 罕 布什 尔 州 有 这 么 高 的 人 均 零 售 额 〈 见 图 12- 
6) 。 男 一 个 用 户 指 出 新 罕 布什 尔 州 没有 征 零售 税 ， 而 拥有 美国 第 二 大 
零售 业 的 特 拉 华 州 也 没有 征 零 售 税 。 照 这 种 方式 ， 讨 论 通 常 涉 及 引入 可 
视 化 中 不 包含 的 上 下 文 信息 。 比 如 用 户 迭 代 式 构建 了 一 条 事件 时 间 线 来 
标注 军事 建设 〈 见 图 12-8) ， 而 另 一 个 用 户 标注 了 引入 义务 教育 的 教师 
图 。 

社交 数据 分 析 的 一 个 例子 是 牙医 在 劳动 力 比率 中 的 盛衰 以 及 复苏 
(12-13) 。 第 一 个 评论 指出 了 这 种 趋势 ， 然 后 咨询 其 发 生 的 原因 。 
一 条 作为 独立 的 话题 回复 该 问题 的 主题 为 “和 氟 化 作 用 有 关 ? 所 以 上 
升 .…... 和 溺爱 小 该， 给 他 们 吃 了 很 多 糖 有 关 ? "s 而 另 一 条 回复 主题 
是 “由 于 预防 性 的 牙医 行业 变 得 更 有 效 ， 牙 医 寻找 继续 工作 的 方式 〈 如 
很 多 人 现在 每 年 看 两 次 牙 ， 而 十 几 年 前 每 年 只 看 一 次 ) ”。 然 而 ， 最 有 
说 服 力 的 ， 可 能 是 包含 链接 到 不 同 观点 的 评论 ， 同 时 显示 牙医 和 牙科 技 
术 。 因 为 牙医 人 数 比 例 已 经 下 降 了 ， 而 牙医 人 数 又 得 到 了 显著 增长 ， 意 
味 着 在 该 领域 内 的 专业 性 。 针 对 这 条 评论 ， 另 一 个 用 户 问 : “我 想 知道 
如 果 学 校 学 牙医 的 费用 变 得 太 昂贵 以 至 于 人 们 根本 不 敢 想 ， 或 者 当 他 们 






































上 技校 后 ， 牙 医 从 业 费 用 很 高 ， 那 牙医 数量 会 减少 吗 ? ” 视 党 数据 分 
析 、 历 史 知 识 和 个 人 轶 事 都 对 理解 过 程 (snsemaking process) 有 影响 ， 曾 
明了 塑造 该 数据 的 各 种 因素 。 
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图 12-13: 标注 的 工作 向 导 视 图 〈 左 图 ) 突出 显示 了 1930 年 后 牙医 
人 数 的 减少 ，( 右 图 ) 由 于 牙医 人 员 排 序 的 上 升 ， 牙 医 从 业 人 数 得 到 增 
长 ( 见 彩 图 46) 

评论 的 另 一 个 作用 是 帮助 解释 数据 ， 尤 其 对 于 数据 集合 中 模糊 的 涵 
义 或 异常 现象 。 对 于 IPUMS 项 目 ， 昌 然 我 们 很 努力 工作 ， 但 是 丢失 数据 
以 及 标签 隐 涩 的 问题 依然 存在 。 为 了 比较 所 有 人 口 统计 普查 年 份 的 数 
据 ， 必 须 形成 共享 的 分 类 机 制 。 以 职位 数据 为 例 ， 使 用 的 是 20 世 纪 50 年 
代 的 模式 。 该 模式 不 包含 一 些 现代 社会 的 职位 如 计算 机 程序 员 ， 而 且 一 
些 标签 含义 不 明 。 

一 个 很 显 着 的 职业 被 标记 为 “技工 "(Oerative)， 沁 指 主要 包含 有 技术 
的 劳动 力 。 这 个 术语 对 于 用 户 几乎 没有 意义 ， 其 中 一 个 用 户 问 :“ 技 工 
到 底 是 喻 ? ”其 他 用 户 回复 同样 不 解 或 者 提出 某 种 理解 ， 如 “我 肯定 它 指 
的 是 工厂 工人 ”。 另 一 个 人 同意 ， 指 出 工人 的 数量 很 大 ， 技 工 的 盛衰 时 
间 似 乎 和 工厂 的 机 器 操作 员 的 盛衰 一 致 。 














照 这 种 方式 ， 用 户 集体 参与 数据 验证 和 解疑 中 ， 通 常 在 数据 
中 “种 ”下 了 “标记 贴 ”(sgnposts) 来 帮助 其 他 人 理解 。 总 的 来 说 ， 大 约 16% 
的 评论 涉及 数据 命名 、 分 类 和 收集 问题 。 

FAR” 

我 们 观察 到 绝 大 多 数 最 初 是 由 他 们 自己 的 兴趣 或 者 在 概述 中 找到 的 
兴趣 项 所 驱动 来 探索 数据 的 (如 “ 噢 ! 看 看 这 些 可 怜 的 农民 是 怎么 消亡 
HJ") 。 最 后 ， 用 户 将 没有 更 多 的 想法 或 者 厌倦 了 探索 。 这 时 候 ， 我 们 
观察 的 每 个 用 户 都 是 不 再 探索 可 视 化 ， 而 是 去 探索 评论 列表 。 有 些 用 户 
认为 这 么 做 他 们 可 以 更 快 地 发 现 有 意思 的 观点 。 表 达 这 种 意思 的 评论 包 
括 :“ 我 相信 其 他 人 友 现 了 一 些 更 有 趣 的 东西 "和 “我 需要 站 在 别人 的 悄 
BS E". 
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人 都 在 搜索 什么 。” 在 数据 驱动 的 探索 和 社会 导航 之 间 切 换 很 常见 ， 通 
过 评论 列表 发 现 的 视图 通常 可 以 点 燃 新 的 兴趣 点 ， 并 激励 更 多 的 可 视 化 
过 程 中 的 数据 分 析 。 在 经 过 一 些 探索 之 后 ， 参 与 者 习惯 性 地 回 到 列表 寻 
求 更 多 的 兴趣 灵感 。 因 此 ， 我 们 观察 到 在 数据 驱动 的 探索 和 社会 导航 之 
间 正 面 的 反馈 循环 : 探寻 社交 活动 有 助 于 促进 探索 新 的 分 析 问 题 。 换 名 
话说 ， 用 尸 可 以 很 流畅 地 在 “向 导 ? 和 * 偷 颖 ?两 个 角色 之 间 切 换 。 





























结论 





基于 sense.us 项 目 成 果 ， 我 们 发 现 交 互 式 可 视 化 和 对 社会 的 理解 可 以 
帮助 用 户 更 丰富 地 探索 数据 集 。 然 而 ， 作 为 研究 原型 系统 ，sense.us 网 
站 从 未 对 外 公布 过 。 相 反 地 ， 我 在 IBM 的 同事 基于 sense.us， 发 布 了 
Many-Eyes.com 站 点 : 一 个 公共 网 站 ， 用 户 可 以 上 传 他 们 自己 的 数据 
集 ， 使 用 各 种 交互 式 可 视 化 组 件 对 数据 可 视 化 ， 参 与 在 线 讨论 或 者 在 该 
站 点 外 部 的 博客 和 wiki 中 谍 入 可 视 化 视图 。 

本 着 同样 的 精神 ，Web 服 务 如 Swivelcom 和 Data360.org， 以 及 商业 产 
品 如 Spotfire Decision Site Posters 和 Tableau Server， 都 允许 用 户 在 web 上 
发 布 可 视 化 帖子 ， 吸 引 其 他 人 参与 社交 数据 分 析 过 程 。 和 较 大 的 Web 规 
模 的 社交 计算 的 运动 同时 ， 仍 然 存 在 如 何 促进 和 支持 社交 形式 的 数据 探 
索 。 关 于 如 何 集成 数据 分 析 和 社交 活动 的 很 多 有 趣 的 研究 问题 仍然 吸 待 
解决 。 开 发 问题 包括 设计 更 好 的 社会 导航 提示 、 更 丰富 的 标注 技巧 和 结 
合用 户 的 观察 、 问 题 和 假设 到 推理 分 析 故 事 中 的 新 方法 。 

虽然 我 们 在 sense.us 网 站 上 看 到 的 分 析 形 式 本 质 上 是 解释 性 的 ， 但 是 
该 系统 有 明显 的 教育 价值 ， 而 且 用 户 反 馈 说 使 用 sense.us 既 让 人 开心 又 
能 够 获取 信息 。 此 外 ， 用 户 生成 的 很 多 观察 、 问 题 和 假设 引起 了 专业 分 
析 师 的 跟 进 分 析 。 数 据 可 访问 表示 与 社会 交互 相 结 合 ， 有 助 于 人 们 把 数 
据 转 换 为 对 社会 更 丰富 的 理解 。 

我 发 现 这 一 切 真 的 很 美 ! 
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第 13 章 ”数据 所 做 不 到 的 


Coco Krumme 

数据 做 了 很 多 事情 : 它 使 我 们 能 够 区 分 科学 与 迷信 ， 重 复 与 随机 。 
在 过 去 几 十 年 中 ， 科 学 家 们 收集 、 整 理 和 存储 数据 的 能 力 已 经 有 了 长 足 
的 发 展 。 从 医学 的 决策 制定 到 软饮料 的 市 场 营 销 到 供应 链 的 管理 ， 我 们 
更 多 地 是 依靠 事实 而 不 是 直 党 。 我 们 依靠 数据 驱动 这 一 切 。 

但 是 ， 数 据 无 法 驱动 一 切 。 在 刚刚 过 去 的 20 世 纪 ， 心 理学 家 对 人 们 
对 任何 事物 的 解释 接近 理性 式 的 稳重 这 一 理论 已 经 " 烦 有 微 词 ”。 实 际 
上 ， 我 们 在 解释 信息 的 时 候 通 第 是 有 倾 加 性 的 。 此 外 ， 真 实 世 界 并 不 是 
和 骨 子 游戏 的 概率 一 样 简 单 。 相 反 地 ， 个 人 必须 从 观察 到 的 经 验 模式 中 
提取 可 能 性 。 

本 章 是 关于 存在 于 数据 和 分 析 之 间 的 近似 和 偏见 的 讨论 。 它 描述 了 
一 组 新 的 实验 和 工具 来 帮助 我 们 更 有 效 地 利用 数据 ， 而 且 从 医学 、 消 费 
和 金融 决策 领域 不 断 增加 的 文献 中 抽取 一 些 例 子 。 

假设 我 请 你 从 图 13-1 中 识别 出 与 众 不 同 的 一 只 鸭子 。 

答案 很 简单 且 可 以 立即 给 出 : 人 类 的 眼睛 可 以 从 一 群 日 天 鹅 中 识别 
出 丑小鸭 。 但 是 ， 对 于 计算 机 ， 其 解决 方案 就 没 就 有 这 人 么 简单 : 对 于 绝 
大 多 数 情 况 ， 图 像 识别 软件 远 落 后 于 人 类 的 视觉 系统 。 



































图 13-1: 人 类 视觉 系统 善于 识别 出 与 众 不 同 的 鸭子 
我 们 的 大 脑 能 够 快速 地 对 新 事物 和 旧事 物 进行 对 比 。 我 们 善于 进行 





类 比 和 扩展 : 将 手套 、 毛 农 和 滑雪 者 关联 在 一 起 ;卡通 老鼠 和 卡通 能 是 
相似 的 ; 卡通 能 和 真正 的 瑟 相 似 ;， 后 两 类 的 相似 性 本 身 很 不 一 样 。 

即使 你 抹 去 上 下 文 ， 我 们 的 视觉 系统 仍然 非常 擅长 挑选 模式 。 以 图 
13-2 为 例 : 你 将 如 何 把 这 些 数据 分 成 两 组 ? 





图 13-2: 我 们 可 以 构建 模型 来 区 分 两 组 数据 集 ( 见 彩 图 47) 

从 添加 维度 和 数据 点 开始 ， 该 任务 如 果 由 人 来 做 ， 将 会 逐渐 变 得 太 
复杂 ; 而 计算 机 则 可 以 较 轻松 地 解析 该 数据 。 你 或 许可 以 在 两 个 点 集 之 
间 画 出 一 条 近似 曲线 ， 但 是 计算 机 能 够 构建 一 个 模型 进而 以 最 精确 的 方 
式 划分 数据 。 

现在 ， 看 看 图 13-3 的 图 表 模 式 ， 它 显示 了 三 个 主要 制造 商 在 2005 年 1 
一 10 月 这 段 时 间 的 股票 价格 。 观 察 以 下 图 表 ， 在 阅读 下 一 段 前 给 出 答 
案 : 基于 给 定 的 模式 ， 你 预期 这 三 只 股票 中 哪 一 只 股票 在 2006 年 会 涨 ? 

你 是 选择 了 第 三 只 股票 吗 ? 因 为 它 看 起 来 最 后 在 涨 。 那 么 ， 你 错 
了 。 事 实 上 ， 如 果 你 选择 第 一 只 或 者 第 二 只 股票 ， 你 也 一 样 错 了 。 没 有 
哪 只 股票 会 上 涨 ， 也 没有 哪 只 会 下 跌 。 实 际 上 ， 这 三 个 图 表 甚 至 并 不 能 
表示 股票 价格 。 它 们 是 随机 生成 的 ， 垃圾 数据 一 一 可 能 有 人 会 如 是 说 。 
但 是 一 旦 相信 这 些 图 表 属 于 某 个 公司 〈 在 本 例 中 指 制造 业 ) ， 就 会 产生 
































各 种 各 样 的 猜测 。 即 使 有 真正 的 图 表 ， 除 非 你 对 茶 个 公司 或 者 行业 有 专 
业 知 识 ， 人 否则 很 难 基 于 一 只 股票 过 去 10 个 月 的 业绩 预测 它 将 来 的 走势 。 
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图 13-3: 三 只 股票 (a、b 和 c) 在 2005 年 的 业绩 〈 见 彩 图 48) 

从 噪音 数据 捏造 故事 的 倾 问 有 时 被 称 为 "叙述 请 误 ”nrrative fallacy)。 
即使 你 对 问题 持 怀疑 态度 《或 者 读 得 太 快 ) ， 当 我 们 调查 一 些 拔尖 的 
MBA 学 生 一 一 其 中 有 些 应 聘 金 融 业 的 工作 一 一 相同 的 问题 ， 他 们 很 确 
定 地 表达 对 这 些 “ 股 票 ”走势 的 信心 。 有 些 人 说 会 涨 ， 有 些 人 说 会 跌 。 当 
为 这 些 图 表 补 充 一 些 随机 生成 的 “新 闻 甬 辑 "， 并 随机 和 茶 个 图 表 放 在 一 
起 时 ， 这 些 学 生 更 坚定 了 目 己 之 前 的 预测 一 一 这 些 可 能 显示 了 人 们 根据 
数据 给 自己 讲 一 个 好 故事 的 能 力 Kumme， 待 发表) 。 《再 看 一 下 财经 











记者 写 的 一 些 俏皮 话 :“ 对 失业 率 上 升 的 恐惧 导致 道琼斯 指数 下 跌 100 

如 果 说 人 类 善于 观察 模式 ， 则 人 类 同时 也 是 编造 关于 统计 学 故事 的 
大 师 。 如 果 我 们 知道 数据 来 自 哪里 及 其 涵义 ， 这 个 问题 就 不 那么 严重 ; 
如 果 我 们 面 对 的 是 来 自 很 多 数据 源 的 证 据 和 高 赌注 的 产 出 时 ， 这 个 问题 
便 可 能 会 是 灾难 性 的 。 

最 后 一 个 例子 ， 在 探讨 问题 之 前 ， 想 一 想 你 的 期 望 。 把 过 去 的 结论 
应 用 于 当前 分 析 的 倾向 被 称 为 "确认 偏见 "(cnfirmation bias)(Lrd 等 
1979) 。【〔 想 一 想 你 认识 的 某 些 人 ， 他 们 只 是 为 了 选 出 一 些 语句 来 进 一 
步 肯 定 自己 的 世界 观 而 阅读 。〉 这 在 处 理 数 据 时 也 是 真实 存在 的 现象 。 
观察 表明 ， 科 学 家 更 偏向 于 坚持 过 去 的 假设 ， 有 时 在 面临 着 对 过 去 假设 
否定 的 压倒 性 的 证 据 面 前 亦 是 如 此 (Jng 2006) 。 同 样 ， 股 票 投资 获得 收 
益 的 投资 商会 根据 经 验 舒 组 地 释放 神经 素 多 巴 胺 ， 帮 助 他 们 对 市 场 的 行 
为 做 出 决定 (L 和 Repin 2002) 。 

我 们 和 暂时 假定 你 既 不 是 科学 家 也 不 是 股票 投资 商 ， 而 只 是 一 个 渺小 
的 调查 员 ， 对 以 下 两 个 投资 方案 选项 做 出 选择 : 

:选项 A: 100% 收 益 7400 美 元 

:选项 B: 75% 可 能 收益 10000 美 元 ，25% 没 有 任何 收益 

这 里 没有 什么 技巧 : 你 可 以 看 到 每 种 结果 的 期 望 效益 。 你 会 选择 哪 
一 种 呢 ? 

现在 ， 给 出 以 下 两 种 选项 ， 你 又 会 选择 哪 一 种 呢 ? 











选项 C: 100% 损 失 7400 美 元 

:选项 D: 75% 可 能 亏损 10000 美 元 ，25% 没 有 亏损 

绝 大 多 数 人 选择 A 和 D。 这 里 出 现 了 不 对 称 的 情况 : 我 们 往往 在 下 跌 
时 更 愿意 冒险 ， 而 在 上 涨 时 则 更 保守 。 也 就 是 说 ， 稳 赚 比 赚 得 更 多 但 可 
能 不 赚 更 吸引 人 ， 但 是 当 需 要 支付 一 定 资金 时 ， 我 们 宁愿 选择 可 能 亏损 
更 多 可 能 不 亏 的 情况 。 此 外 ， 这 种 投资 组 合并 没有 得 到 最 大 回报 : 如 果 
我 们 只 是 投机 性 地 考虑 收益 和 损失 ， 我 们 应 该 选择 B+C 的 组 合 方式 ， 
为 其 总 期 望 收 益 是 1000 美 元 ， 而 A+D 组 合 方式 的 总 期 望 收益 是 -1000 美 
元 〈 也 就 是 说 ， 比 起 A+D 组 合 方式 ，B+C 组 合 方式 总 期 望 收益 高 出 2000 
美元 ) o 

Daniel Kahneman 和 Amos Tversky 在 20 世 纪 70 年 代 首先 做 了 该 实验 ， 
它 揭 示 了 人 们 通常 都 不 是 以 概率 的 方式 思考 问题 : 相反 ， 我 们 想象 和 每 
一 种 单一 收益 相关 的 感情 收益 。 

事实 上 ， 在 很 多 重要 的 方面 ， 我 们 并 不 是 以 自己 所 假定 的 方式 来 处 
理 数 据 。 




















何 时 数据 无 法 驱动 


前 面 的 内 容 指 出 了 人 们 在 分 析 数 据 时 存在 的 一 些 认 知 偏见 。 本 文 的 
剩余 部 分 讨论 数据 所 不 能 做 的 ， 也 融 是 说 ， 其 衡量 和 解释 本 吴 可 以 转换 
数据 的 各 种 方式 。 本 文 不 是 一 篇 关于 “ 谋 言 、 天 杀 的 说 言 和 统计 ?的 论 
X: 我 们 知道 数据 可 以 极 故 意 混 消 ;， 本 文 的 重点 是 它 如 何 会 被 无 意 混 
消 。 特 别 是 在 如 下 情况 : 

-我们 使 用 数据 的 方式 不 够 准确 

:我们 采用 已 知 的 仿 见方 式 处 理 数 据 

虽然 以 下 例子 重点 研究 医学 和 财务 数据 ， 但 是 它们 或 多 或 少 可 以 扩 
展 。“ 数 据 * 用 于 表示 任意 从 经 验 、 观 察 和 实验 中 积累 的 原始 的 事实 。 

数据 并 非 越 多 越 好 

统计 是 一 门 表示 和 近似 的 科学 。 我 们 捕获 或 者 观察 一 个 系统 越 多 ， 
就 越 能 真实 地 表示 它 。 一 篇 入 门 性 的 文章 往往 会 强调 : 随 厦 你 增加 样本 
K, BAKERO, MRA EREA. MEW, ELKA 
de n] EATER Abs IL B13-4) 。 























图 134: ESDA 〈( 见 彩 图 49) 
教科 书 上 一 个 不 错 的 真相 。 在 游离 世界 外 ， 需 要 审查 一 些 假设 。 首 








先 ， 数 据 是 如 何 分 布 的 ? 它 是 否 是 正 态 的 ? 例如 ， 很 多 财务 数据 的 分 布 
偏离 常态 。 医 学 数据 〈 例 如， 特征 表达 ) 通常 更 多 的 是 呈 高 斯 分 布 ， 但 
是 演变 并 不 总 是 符合 中 心 极限 定理 。 

如 果 数 据 不 是 正 态 分 布 ， 更 多 的 数据 将 不 会 减少 你 期 望 的 误差 边 
际 。Karl Popper 描 述 了 我 们 如 何 使 用 数据 来 回答 问题 上 的 偏 态 : 

虽然 无 论 有 多 少 个 与 假设 一 致 的 结果 都 无 法 证 明 该 假设 是 正确 的 ， 
但 是 只 要 存在 一 个 反面 结果 ， 就 可 以 推翻 该 假设 。 更 多 的 数据 只 是 增加 
了 必然 性 边际 ， 而 一 个 实例 就 可 以 推翻 一 个 世纪 的 信仰 。 

其 次 , “ 误 报 率 ”(flse positive] 和 “ 漏 报 率 ”(flse negative) 的 代价 相同 














吗 ? 即使 你 的 数据 是 〈 或 者 看 起 来 ) 是 正 态 分 布 的 ， 你 对 不 同 结果 的 兴 
趣 可 能 也 是 不 对 称 的 。 

例如 ， 无 法 检测 到 威胁 生命 的 疾病 的 误差 所 付出 的 成 本 可 能 比 错误 
的 诊断 更 高 。 在 这 种 情况 下 ，【〔 通 过 减少 “ 漏 报 率 ”) 提高 诊断 正确 性 的 
数据 比 通过 大 量 数据 来 减少 “ 误 报 率 ”更 有 用 。 

更 多 的 数据 并 不 容易 

数据 并 不 一 定 需要 大 规模 。 信 息 时 代 一 个 陈腐 的 “篇 言 ”是 : 处理 
10TB 的 数据 和 处 理 10 比 特 的 数据 一 样 简 单 ， 而 制作 100 亿 个 向 导 小 工具 
要 比 制作 10 个 更 昂贵 。 

在 某 些 情况 下 ， 清 洁 和 处 理 数 据 的 代价 不 低 。 当 需要 人 工 肉 眼 校 
验 ， 比 如 阅读 X 射 线 或 者 问卷 上 的 手写 编码 数据 时 ， 尤 其 如 此 。 依 据 “ 红 
ME E Je" (Rd Queen) 效 应 由 ， 性 能 更 好 的 计算 机 及 其 愈 来 愈 强 的 收集 数据 
的 能 力 驱动 了 而 且 被 驱动 ) 开 发 新 的 工具 和 采用 新 的 方式 来 解析 和 使 
用 数据 。 

也 存在 包含 更 多 信息 的 认 知 成 本 。 我 们 是 选择 超市 的 拥挤 还 
是 “401(k) 条 款 ”(401(k)plans)'， 研 究 表 明 随 着 选项 的 增加 ， 决 策 需要 
花费 的 时 间 越 来 越 多 ， 我 们 变 得 更 可 能 不 做 任何 选择 而 直接 放弃 ， 而 且 
对 于 自己 做 出 的 选择 的 满意 度 也 降低 了 (Ienger 和 Lepper 2000) 。 

最 后 ， 一 个 微妙 的 成 本 是 : 更 多 的 数据 会 使 我 们 变 得 盲目 而 看 不 到 
其 他 的 可 能 性 ， 尤 其 当 我 们 需要 收集 并 整理 数据 时 。 很 难 想象 ， 看 到 更 
多 的 数据 意味 着 更 好 地 支持 一 个 假设 一 一 确认 偏差 和 抽样 问题 的 必然 结 


























果 之 前 已 经 讨论 过 了 。 

数据 不 会 自我 解释 

人 们 做 出 了 种 种 解释 。 你 可 能 已 经 听 说 ， 相 关 性 (crrelation) 和 因果 关 
系 (cusality) 是 “ 聚 头 冤家 ”(srange bedfellows)。 给 定 两 个 统计 上 密切 相关 
的 变量 ， 因 果 关 系 既 可 以 变 大 也 可 以 变 小 。 统 计 学 家 喜欢 滥用 相关 性 
(更 不 用 提 很 多 博客 了 )〉， 比 如 对 现代 世界 传统 价值 观 的 衰落 有 所 不 满 
的 老 太 太 。 

记者 是 这 种 统计 “不 满 ” 的 首要 主导 因素 。 例 如 ，《 华 尔 街 日 报 》 最 
近 的 一 篇 文章 指出 (sellenbarger 2008) ， 由 于 婚前 同居 离婚 的 概率 更 
高 ， 未 婚 夫妇 为 了 提高 婚 后 呆 在 一 起 的 概率 ， 应 该 避免 婚前 同居 。 该 项 
研究 没有 任何 迹象 表示 其 中 存在 因果 关系 ， 而 这 个 记者 基于 “数据 *， 给 
情侣 们 提供 了 她 自己 的 建议 。 

用 因果 关系 蔡 代 相关 性 不 需要 如 此 明显 。 当 开展 一 项 科学 研究 项 目 
时 ， 存 在 以 下 假设 : 如 果 发 现 事物 间 存 在 相关 性 ， 就 意味 着 它们 存在 因 
果 关 系 ， 否 则 其 关系 就 是 未 知 的 。 和 否则 ， 为 什么 要 去 回答 研究 问题 呢 ; 
大 规模 地 搜索 没有 因果 关系 的 相关 性 属于 偶然 性 计算 ， 不 是 科学 。 即 使 
是 所 谓 的 大 数据 ， 科 学 依然 是 一 个 很 强 的 由 假设 驱动 的 过 程 。 

经 验 研 究 的 局 限 不 是 有 道理 的 服输 ， 只 是 小 心 谨慎 地 推进 研究 发 
现 ， 不 受 因果 关系 影响 。 基 于 数据 创造 故事 是 人 之 常情 : 研究 是 不 断 地 
修改 故事 ， 使 它 变 得 合理 。 

仅仅 是 答案 的 数据 是 不 好 的 






































描述 性 统计 信息 会 隐藏 细节 人 信息。 例如， 图 13-5 的 图 表 显 示 了 看 起 
来 显著 不 同 的 四 种 分 布 ， 但 其 均值 和 方 兰 却 是 相同 的 。 描 述 性 统计 学 的 
两 大 文 村 
1973) 。 











言 息 很 少 (Ascombe 
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图 13-5: Anscombe 的 “四 重奏 ”(qattet): 每 组 数据 集 都 有 相同 的 均值 


和 方差 
当 使 用 数据 来 制定 决策 时 ， 我 们 倾向 于 认为 数据 分 布 只 是 为 了 最 后 
的 一 个 答案 。 我 们 可 能 需要 基于 二 选 一 来 制定 决策 一 “美国 应 该 宣战 
吗 ? FDA《〈 美 国 食品 药品 管理 局 ) 应 该 批准 这 种 药物 吗 ? 预计 谁 会 赢得 
竞选 ? (或 者 是 做 一 个 总 结 性 陈述 ) 美国 人 有 多 富有 ? 在 今后 5 年 ， 地 

















球 的 气候 将 会 如 何 ? 
差 ， 重 要 的 还 是 决策 。 

人 们 在 思考 时 ， 考 虑 的 是 结果 ， 而 不 是 分 布 。 以 个 人 财务 决策 为 
例 : 我 应 该 在 股票 、 债 券 和 现金 上 投资 多 少 ? 即使 过 去 的 财务 业绩 可 能 
预测 将 来 的 回报 〈 即 使 财务 顾问 法 律 上 需要 承认 这 一 点 ， 事 实 上 也 并 非 
如 此 ) 一 一 也 就 是 说 ， 即 使 我 们 知道 了 分 布 的 状态 一 一 我 们 还 存在 很 多 
可 选择 的 风险 和 回报 组 合 ， 以 及 在 这 些 分 布 范 围 内 的 很 多 可 能 的 结果 。 
给 定 一 个 风险 水 平 ， 一 个 人 退休 时 可 能 很 富有 也 可 能 很 贫穷 ， 同 时 想象 
这 几 种 情况 很 难 〈 人 们 倾向 于 假设 一 个 平均 情况 ， 或 者 有 时 是 最 佳 的 情 
况 ， 即 所 谓 的 “规划 性 请 误 ”(panning fallacy)) 。 

一 个 决策 学 科学 家 团队 创建 了 一 个 有 趣 的 工具 来 帮助 投资 者 理解 结 
果 分 布 的 固有 的 概率 范围 〈 见 图 13-6) 。 参 与 者 可 以 调整 100 个 “单位 概 
率 ?” 来 形成 一 条 分 布 曲线 。 举 个 例子 ， 他 们 可 以 把 所 有 单位 都 放 在 75% 
的 薪金 的 位 置 ， 或 者 把 这 些 单位 平均 分 发 到 很 多 不 同 的 比例 水 平 。 然 
后 ， 点 击 “ 开 始 ”(g)， 观 察 这 些 单 位 一 个 个 逐渐 随机 消失 。 最 后 留 下 的 一 
项 是 “结果 ”(otcome)](Gldstein 等 2008) 。 因 此 ， 风 险 水 平 不 是 一 条 模糊 
的 分 布 曲线 ， 而 是 一 组 (这 里 是 100 个 ) 具有 相同 发 生 概率 的 曲线 。 


这 些 都 是 基于 不 确定 性 数据 。 即 使 报告 了 方 
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|5/2/3/3]2/5/2]3/5 314431313131518 31431318 


PII 121321333321331111312333313112332123332123111121321331313112322131231111111. 


E] 13-6: Goldstein 等 开发 的 工具 帮助 人 们 理解 作为 一 组 结果 的 
( 见 彩 图 50) 

生物 学 家 Stephen Jay Gould 通 过 和 结果 等 同 的 描述 统计 进一步 前 明了 
这 个 问题 。“ 中 间 产 物 不 是 想 要 的 信息 (Te Median is not the Message) 是 
Gould 对 癌症 诊断 和 “只 能 活 8 个 月 ”的 警告 的 反应 。 关 于 癌症 的 文章 基 
于 “预先 定义 的 一 组 环境 ”揭示 了 向 右 偏 也 就 是 在 过 去 治疗 情况 
的 假设 上 ， 考 命 很 长 的 幸存 者 的 一 个 很 长 的 故事 。 声 称 “8 个 月 ”的 生存 
期 具有 很 大 的 局 限 性 ， 正 如 Gould 优 雅 地 给 出 兽性 的 统计 特征 : 

进化 生物 学 家 知道 自然 变异 本 身 是 唯一 不 可 改变 的 本 质 。 变 异 是 残 
酷 的 现实 ， 而 不 是 对 集中 趋势 的 不 完美 的 衡量 尺度 。 均 值 和 中 位 数 是 抽 
象 化 的 。 








数据 不 能 预测 

建立 模型 (来 预测 明天 的 天 气 ，2012 年 超级 杯 的 结果 或 者 世界 500 强 
的 命运 ) 是 一 门 很 吸引 人 的 艺术 。 事 实 上 ， 科 学 最 重要 的 探险 一 一 解释 
我 们 周围 的 世界 的 一 个 重要 扩展 ， 正 试 着 去 了 解 世界 的 未 来 。 

在 某 些 领域 ， 即 受 控 的 物质 世界 宇宙 ， 有 可 能 预测 几乎 确定 的 结 
果 。 未 来 的 结果 可 以 高 保 真 地 从 过 去 事件 的 发 展 轨迹 中 得 出 ， 水 加 热 时 
会 变 成 气体 ;， 物体 在 真空 中 会 以 每 秒 9.8 米 的 加 速度 下 降 ; 如 果 动 物 的 
心脏 停止 跳动 ， 它 就 死 了 了。 从 认识 论 上 看 ，Popper 的 “可 否认 
性 ”(flsifiability) 理 论 没有 实际 意义 ， 但 是 如 果 之 前 三 个 假设 是 真实 的 ， 
那么 它 可 以 引导 出 健全 的 社会 生活 。 

在 确定 性 较 低 的 领域 ， 比 如 人 类 或 物理 行为 ， 模 型 是 帮助 解释 模式 
的 重要 工具 。 但 是 ， 当 我 们 过 于 淘 望 让 数据 说 话 时 ， 可 能 会 导致 生成 过 
拟 合 模型 。 

以 发 现 多 普 勒 径 向 速度 为 例 〈 该 过 程 我 仅 有 表面 简单 的 理解 :基本 
上 ， 明 亮 的 星星 使 得 查看 行星 变 得 很 难 ， 因 此 天 文学 家 识别 了 多 普 勒 变 
化 的 各 种 组 合 ， 它 们 只 有 在 行星 绕 过 恒星 时 才 会 出 现 ) 。 很 难 检 测 模 型 
的 灵敏 度 ， 而 且 只 有 15 个 观察 ， 其 数据 可 能 非常 适合 图 13-7 的 正弦 曲线 
(G 等 2004) ! 

当 模 型 过 拟 合 时 ， 它 就 失去 了 预测 能 力 。 此 外 ， 如 果 我 们 喜欢 接受 
任何 最 适合 己 有 数据 的 模型 ， 而 不 关心 其 复杂 性 或 灵敏 性 ， 那 么 我 们 就 
会 犯 一 些 错误 。 首 先 ， 忘 记 数 据 的 因果 关系 ， 对 它 有 损害 ， 过 度 调 试 的 





























模型 无 法 说 明 任 何 东西 。 

其 次 ， 我 们 忘记 数据 (或 者 数据 集合 ) 可 能 是 有 限 的 ， 而 世界 本 号 
可 以 改变 。 以 试图 预测 200 年 前 的 世界 气候 问题 为 例 。 存 在 一 些 关 键 证 
据 ， 长 期 以 来 还 保持 很 高 的 分 辩 率 ， 即 化 石 记录 和 冰 核 中 的 全 球 气温 数 
据 。 气 修学 家 还 可 以 推断 出 当地 气温 和 来 自 日 记 和 树 的 年 轮 的 沉淀 ， 但 
是 其 精度 水 平 差别 甚 殊 : 18 世 纪 的 暴风 玻璃 和 20 世 纪 带 GPS 的 气象 气球 
不 同 。 而 且 ， 谁 能 够 知道 相同 组 合 的 交互 在 21 世 纪 驱 动 的 气候 事件 和 20 
世纪 会 相同 呢 ? 

同样 ，1914 年 的 福特 汽车 公司 和 1975 年 不 一 样 ， 和 今天 的 福特 也 不 
一 样 ， 但 是 很 多 金融 模型 假定 市 场 的 最 后 一 个 周期 的 动态 性 也 将 会 解释 
其 未 来 的 业绩 《而 且 ， 模 型 对 要 考虑 的 相对 时 间 周 期 做 出 了 非常 不 同 的 
假设 ) 。 因 此 ， 风 险 分 析 模 型 可 能 在 很 多 时 候 只 是 偏离 〈 可 接受 程度 ) 
一 点 点 ， 但 是 当 发 生 * 未 预期 ”的 情况 时 ， 它 可 能 就 会 被 完全 打破 《例如 
phy EBD 。 
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图 13-7: 外 星 识别 模型 

好 的 科学 家 了 解 坏 模型 的 危险 ， 但 是 被 一 个 看 起 来 特别 好 的 模型 
所 “诱惑 ”也 不 难 。 举 个 例子 ，2005 年 报告 的 过 拟 合 模 型 的 一 个 单位 的 经 
验 ( 它 当时 是 正确 的 ， 但 是 事后 看 来 ， 它 还 差 得 很 远 〉: 

当 一 种 新 的 模型 方法 大 大 提高 了 能 量 时 ， 人 们 对 它 产 生 一 定 的 怀疑 
是 合适 的 。 这 种 新 方法 通常 是 拟 合 数据 收集 的 结果 ， 而 不 是 实际 的 底层 
行为 关系。 此 外 ， 这 些 问题 在 事后 看 来 很 显然 ， 但 是 在 我 们 当时 有 的 数 
据 清 理 过 程 中 ， 并 没有 出 现 这 些 问题 …... 最 好 的 情况 是 ， 过 度 拟 合 会 给 
新 模型 带 来 不 必要 的 复杂 性 或 者 用 户 会 诉 毁 该 模型 。 最 坏 的 情况 是 ， 它 
导致 投资 组 合 的 风险 评估 的 系统 错误 。 

看 看 吧 ! 

存在 很 多 令 人 信服 的 理由 来 建立 预测 模型 ， 包 括 探索 场景 和 阐明 假 














设 ; 一 个 优秀 的 例子 ， 参 考 Joshua Epstein 2008 年 发 表 的 文章 “为 什么 建 
Bf 

概率 不 是 直观 的 

这 是 构建 统计 时 的 另 一 个 招 人 喜欢 的 “ 睦 答 (fogging horse) 策 略 ， 而 
且 是 出 于 善意 的 。 统 计 学 家 不 知 疲倦 地 设计 可 爱 的 游戏 ， 证 明 一 个 看 似 
常识 性 的 答案 不 正确 的 概率 ， 而 且 条 件 概率 和 联合 概率 不 是 直观 的 。 当 
数学 家 们 和 医生 们 被 这 些 游 戏 愚 弄 时 ， 这 些 统计 学 家 便 会 格外 高 兴 。 

给 定 一 个 美国 城市 ，100 万 居民 当中 大 约 有 1000 名 (或 0.1%) 居民 携 
带 艾 滋 病 毒 阳 性 。 一 种 新 的 艾滋 病毒 测试 ， 包 含 1% 的 误诊 率 : 每 一 百 
次 中 会 有 一 次 ， 它 会 将 一 个 艾滋 病毒 阴性 的 人 误诊 为 艾滋 病毒 携带 者 ; 
反之 亦 然 。 

假设 有 人 参加 了 测试 ， 并 被 诊断 携带 艾滋 病毒 阳性 。 那 么 ， 他 患 有 
艾滋 病毒 的 概率 是 多 大 呢 ? 

很 多 人 会 回答 说 他 患 有 艾滋 病毒 的 概率 是 99%， 因 为 测试 的 误诊 率 
是 1%。 实 际 上 ， 因 为 患 有 该 疾病 的 人 口 比例 非常 小 ， 任 何人 患 有 该 疾 
病 的 概率 ， 即 使 被 诊断 患 有 ， 也 只 有 9.9%。 (99.9 万 的 艾滋 病毒 阴性 的 
居民 ， 有 9990 个 会 被 诊断 为 携带 艾滋 病毒 ， 而 其 中 只 有 990 个 真正 有 艾 
滋 病 毒 。 对 于 结果 是 携带 艾滋 病毒 的 诊断 ， 实 际 上 真正 有 艾滋 病毒 的 概 
率 是 990/9990 或 9.9%。 ) 

医生 给 出 的 诊断 错误 率 很 高 ， 至 少 是 值得 怀疑 的 。 

在 很 多 情况 下 ， 先 验 不 会 消失 。 当 使 用 数据 来 回答 问题 时 ， 我 们 不 


























知道 应 该 排除 哪些 证 据 ， 以 及 如 何 权衡 哪些 证 据 更 重要 。Daniel 
一 个 不 知 疲倦 的 概念 命名 者 一 一 把 这 种 现象 命名 为 “基准 
HER BAR’ (bse rate fallacy). 

概率 事件 不 是 直观 的 

不 但 概率 论 很 难 把 握 ， 每 个 概率 事件 也 很 球 忽 不 定 。 当 缺乏 因果 关 
系 来 把 一 个 事件 绑 定 到 一 组 结果 集 上 时 ， 人 们 依赖 过 去 的 观察 来 估计 概 
率 。 而 且 观 察 通 常 是 以 偏见 方式 收集 的 〈 尤 其 当 通 过 经 验 赛 括 ， 而 通过 
实验 也 很 平常 ) ， 并 且 很 难 记 录 、 调 试 、 加 权 、 保 存 和 查询 。 

真实 世界 并 不 创建 随机 变量 

最 开始 ， 地 球 是 没有 形状 的 ， 而 且 没有 东西 。 然 后 Fisher 说 : “让 我 
们 有 z 分 数 和 变异 数 。” 于 是 存在 了 z 分 数 。Fisher 看 到 回归 很 好 ， 于 是 他 
把 有 意义 的 和 无 意义 的 区 分 开 来 。 统 计 学 的 发 明 看 起 来 是 如 此 重大 的 创 
新 ， 但 是 它们 很 难 记 住 ， 因 为 它们 不 是 自然 规律 。 人 可 以 想象 男 一 个 宇 
宙 ， 那 里 设置 了 统计 意义 的 标准 阔 值 〈 被 任意 设置 ， 正 如 在 我 们 宇宙 
里 ) 为 p=0.01 或 p=0.06， 而 不 是 当前 的 p=0.05。 想 想 那 些 已 经 被 批准 或 
拒绝 的 毒品 、 环 境 变量 和 健康 影响 之 间 的 错误 关联 ， 你 在 汽车 保险 上 花 
费 的 大 量 金钱 ! 

在 没有 Fisherian 的 世界 ， 不 存在 类 似 于 独立 随机 变量 的 东西 。 实 际 
上 ， 很 多 东西 关联 度 都 很 高 。 目 前 ， 实 验 控制 相互 依赖 性 是 可 能 的 ， 但 
是 独立 性 就 很 难保 证 。 正 如 我 们 最 近 所 知 ， 假 设 离散 事件 〈 如 购房 贷款 
人 按揭 拖欠 ) 相互 独立 可 能 是 错误 的 ， 但 却 有 很 多 理论 基于 这 种 假设 


Kahneman 












































《如 可 交易 的 金融 产品 融入 了 贷款 款项 ) 不 一 定 是 错误 的 。 

预测 市 场 和 群体 决策 制定 过 程 能 够 非常 出 色 地 工作 一 一 在 某 些 情 况 
下 ， 优 于 一 组 专家 的 估计 。 然 而 ， 当 信息 瀑布 和 相互 依赖 关系 进入 系统 
时 ， 它 们 已 经 证 明 被 打破 了 (Bkhchandani 等 1998) 。 

数据 不 是 独立 的 

在 现实 世界 的 决策 制定 中 ， 数 据 有 很 多 种 形式 。 信 息 很 少 会 被 清理 
并 打包 成 一 个 格式 良好 的 电子 表格 或 “矩阵 文件 "mtrix file)， 取 而 代 
之 ， 我 们 通常 需要 基于 主观 以 及 量化 信息 来 制定 决策 。 

举 个 例子 ， 是 否 制定 在 线 把 钱 借 给 别人 的 决策 (为 了 盔 利 ， 作 为 建 
并 贷款 市 场 的 一 部 分 ) 。 我 和 同事 使 用 一 组 来 自 于 P2P(peer-to-peer) 平 台 
Prosper.com 的 35 万 贷款 数据 集 ， 对 资金 借贷 和 偿还 进行 了 分 析 ， 其 结 
表明 不 论 有 多 少 个 模型 (混合 模型 、 神 经 网 络 、 决 策 树 和 回归 〉 能 够 预 
测 谁 能 够 获得 贷款 以 及 谁 能 够 准时 偿还 的 准确 率 只 有 75%。 大 量 的 数据 
一 一 包括 该 网 络 的 每 个 人 有 100 多 种 个 人 财务 健康 指标 一 一 都 可 以 根据 
现 有 算法 来 计算 ， 但 是 哪个 申请 者 可 以 获得 资格 以 及 哪个 无 法 得 到 资助 
还 是 难以 预测 。 通 过 量化 主观 特征 ， 模 型 可 以 得 到 部 分 完善 。 当 一 个 人 
决定 是 否 把 钱 借 给 网 络 的 某 个 成 员 时 ， 出 借 人 (和 银行 不 同 ) 考虑 了 很 
多 “ 软 ” 因 素 : 借款 人 的 目的 声明 、 公 司 形象 、 拼 写 、 语 法 以 及 其 他 个 人 
资料 信息 。 为 了 把 其 中 一 些 特征 纳入 我 们 的 模型 ， 我 们 请 人 工 〈 来 自 
Amazon 的 Mechanical Turk) 对 Prosper.com 网 站 的 成 员 图 像 进行 编码 ， 首 
先是 内 容 一 一 该 图 像 是 否 描述 一 个 人 、 家 庭 、 车 等 一 一 然后 是 “诚信 ? 评 


























分 : 即 该 问题 的 答案 , “你 会 借 钱 给 这 个 人 吗 ? ” 

但 是 模型 仍然 存在 不 足 : 社会 因素 对 贷款 的 动态 性 有 着 意 想不到 的 
作用 。 和 我 们 的 假设 相反 ， 贷 球 给 别人 的 决定 不 是 独立 的 。 而 证 据 表 
明 ， 竞 标 存在 一 些 “ 羊 群 效应 ”: 出 借 人 学 其 他 出 借 人 ， 而 且 随 着 一 个 贷 
球 上 的 竞标 增加 ， 单 位 时 间 的 竞标 也 加 速 。 

即使 考虑 这 些 情况 以 及 其 他 的 社会 因 系 ， 很 多 出 借 人 还 是 制定 了 次 
优 的 贷款 决定 。Proper 网 站 在 理论 上 是 一 个 接近 完美 的 市 场 :， 几乎 所 有 
的 人 都 可 以 访问 该 站 点 的 API， 并 重复 我 们 的 分 析 。 但 是 出 借 人 对 于 非 
常 冒险 的 投资 ， 还 是 只 得 到 非常 低 的 回报 : 给 定 统计 的 期 望 回 报 ， 很 差 
的 投资 赌注 的 数量 多 得 惊人 。 即 使 有 可 徘 的 信息 《而 且 主 观 数据 代理 人 
谦逊 温和 ) ， 决 全 通常 不 是 根据 数据 直接 指定 的 ， 反 过 来 ， 数 据 只 能 够 
从 一 定 程 度 上 解释 人 们 的 决策 。 

数据 受到 观察 者 的 影响 

最 后 ， 即 使 在 可 徘 的 因果 关系 是 可 能 的 情况 下 ， 如 果 数 据 是 由 Fisher 
和 Bayes (如果 该 学 生 如 此 虔诚 ) 的 一 个 明智 的 学 生 老 老 实 实地 收集 和 
建 模 ， 并 由 该 学 生 负 责 改变 并 验证 其 模型 〈 而 且 对 模型 结果 仍然 持 怀 疑 
态度 )， 那 么 很 多 认 知 偏见 会 模糊 人 们 的 思考 。 在 真实 世界 中 ， 我 们 最 
好 能 够 以 概率 性 假设 方式 来 操作 。 

正如 统计 学 家 第 第 在 他 们 的 博客 上 表示 不 满 ， 行 为 经 济 学 家 在 各 目 
IAE ERRA. WZ EP DURE. BRE iL. PETS 
论 、 冒 险 、 基 础 概率 座 误 以 及 奔 张 的 贴现 。 心 理学 家 已 经 索引 了 很 多 其 






































他 的 ， 包 括 从 “ 销 定 ”〈 过 度 依赖 于 最 近 单 点 数据 来 制定 决策 ) 到 “Lake 
Wobegon 效 应 ”( 超 出 一 半 的 人 认为 他 们 高 于 平均 水 平 ) 。 

随 着 这 些 影响 被 更 好 地 记录 ， 我 们 可 以 开发 工具 并 利用 直觉 来 帮助 
采用 数据 的 票面 价值 〈 我 的 一 部 分 工作 重点 为 金融 决策 开发 工具 ) 。 从 
某 种 意义 上 来 说 ， 解 决 办 法 很 简单 :如 果 你 不 理解 数据 的 局 限 性 ， 那 么 
数据 并 没有 太 多 价值 。 

[l]Lewis Carroll 的 《爱丽 丝 梦 游 仙 境 》 中 的 “ 红 桃 皇后 ”说 “为 了 采 
在 原 地 ， 你 需要 尽力 奔跑 ”。 该 思想 被 用 于 描述 一 个 系统 ， 由 于 外 部 压 
力 的 竞争 ， 必 须 不 断 地 和 竞争 者 共同 演化 发 展 。 

[21401() 条 款 指 的 是 20 世 纪 80 年 代 初 制定 的 美国 《国内 税收 法 》 的 第 
401 条 第 k 项 条 款 ， 是 由 雇员 和 雇主 共同 缴费 建立 起 来 的 养老 保险 制度 。 











结束 语 


不 用 多 说 ， 我 们 在 一 个 丰富 的 数据 时 代 生 活 。 很 多 东西 便宜 松 垮 。 
进化 过 程 已 经 使 我 们 能 够 注意 到 环境 的 显著 变化 一 一 众所周知 的 老虎 和 
海啸 一 一 识别 老虎 的 脸 ， 描 述 海 啸 以 帮助 记忆 。 但 是 我 们 缺乏 基础 设施 
来 收集 和 排序 大 量 的 异 构 数据 集 。 我 们 有 哪些 基础 设施 必须 慎重 利用 : 
我 们 可 以 通过 理解 概率 和 概率 的 极限 来 开始 更 好 地 利用 数据 ， 而 且 对 帮 
助 阐释 世界 的 认 知 偏见 持 审慎 态度 。 

观察 者 眼 里 的 数据 真 的 可 以 很 美 ! 
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Peter Norvig 

本 书 大 部 分 曾 述 的 是 “ 波 德 莱 尔 (Budelaire) 意 义 ” 上 的 数据 之 美 :“ 一 
切 美好 和 党 高 的 都 是 理性 和 计算 的 结果 。?” 本 章 的 数据 是 “ 检 罗 (Toreau) 
意义 ”上 的 数据 之 美 : “人 们 总 是 被 最 平凡 的 演讲 之 美 打动 。” 本 章 要 闻 
述 的 数据 是 “最 平凡 的 演讲 >”: 取 自 公开 的 Web 页 面 中 的 总 长 度 达 1MB 英 
语 单词 的 数据 。 这 些 数据 涵盖 了 Web 所 有 的 “ 陈 词 滥 调 ?”， 既 有 拼写 和 话 
法 错误 、 哈 哈 大 笑 (Lugh Out Loud,LOL) 的 猫 、 踢 踢 滚 滚 (Rckrolling)， 也 
包含 马克 : 吐 温 、 狄 更 斯 、 奥 斯 河和 几 百 万 其 他 作家 的 作品 集 。 

G 公 司 的 Thorsten Brants 和 Alex Franz 于 2006 年 发 布 了 1MB 的 单词 数 
据 ， 你 可 以 在 语言 数据 联盟 (Lnguistic Data Consortium) 上 可 以 获取 
(htp: /Wtinyurl.com/ngrams)。 该 数据 集 通 过 计算 每 个 单词 的 出 现 次 数 ， 
依照 每 二 词 (to-word)、 三 词 、 四 词 和 五 词 序 列 对 原始 文本 求 和 。 举 个 例 
子 ，“the” 这 个 单词 出 现 了 230 亿 次 ( 占 了 1MB 单 词 的 2.2%) ， 该 词 是 最 
第 用 的 单词 。 单 词 “rebating” 出 现 了 12750 次 〈( 占 百 万 分 之 一 ) ， 还 
有 “fnuny”( 显 然 是 “funny” 的 误 拼 ) 。 在 三 词 序 列 中 , “Find all posts” H 
现 了 1300 万 次 ( 占 0.001%) , “each of the” 出 现 频率 与 之 相似 ， 但 都 低 
于 出 现 了 1 亿 次 的 “All Rights Reserved” (40.01%) 。 以 下 是 三 词 序列 的 
一 个 摘录 : 




















outraged many African 63 











outraged many Americans 203 
outraged many Christians 56 
outraged many Iragis 58 
outraged many Muslims 74 
outraged many Pakistanis 124 
outraged many Republicans 50 
outraged many Turks 390 
outraged many by 86 

outraged many in 685 
outraged many liberal 67 
outraged many local 44 
outraged many members 61 
outraged many of 489 
outraged many people 444 
outraged many scientists 90 

















从 摘录 可 见 ， 土 耳 其 人 是 最 易 产 生 不 满 的 组 织 《〈 来 自 网 络 ， 根 据 当 
时 收集 的 数据 ) ， 共 和 党 和 自由 党 人 有 时 会 产生 不 满 ， 而 民主 党 和 保守 
党 则 很 少 有 不 满 。 

为 什么 我 说 数据 很 美 并 不 乏味 ? 单个 计数 都 是 乏味 的 。 但 是 这 些 计 
数 的 聚集 一 一 几 亿 个 计数 则 是 美丽 的 ， 因 为 它 具 有 很 多 含义 。 计 数 的 聚 
集 不 再 仅仅 是 英语 ， 而 是 关于 说 英语 的 人 们 的 世界 。 数 据 是 美丽 的 ， 因 
为 它 表 示 了 很 多 值得 表达 的 东西 。 

对 于 这 些 数据 ， 在 观察 可 以 做 什么 之 前 ， 我 们 需要 弄 清 如 何 探 讨 (tlk 
the talk) 一 一 学 习 一 些 术语 。 文 本 的 集合 称 为 语料库 。 我 们 把 语料库 看 
做 token 序 列 一 一 单词 和 标点 符 写 。 每 个 不 同 的 token 称 为 类 型 (tpe)， 
此 文本 “Run,Lola Run” 包 含 四 个 token (逗号 也 作为 一 个 token)， 但 只 有 
三 种 类 型 。 类 型 的 集合 称 为 词汇 。G 公 司 语料库 包含 1MB 的 token，1300 
万 种 类 型 。 英 语 在 词典 里 出 现 的 单词 大 约 只 有 100 万 ， 但 是 语料库 包含 
这 样 的 类 型 ， 

















如 “www.njstatelib.org” “+170.002”, “1.5GHz/512MB/60GB” il“ Abraham 
但 是 绝 大 多 数 的 类 型 是 很 少见 的 ， 最 通用 的 10 个 类 型 占 几乎 V3 的 
token， 最 通用 的 1000 个 占 超过 2/3， 而 最 通用 的 10 万 个 占 98%。 

1-token 序 列 是 一 元 ，2-token 序 列 是 二 元 ，n-token 序 列 是 N 元 。P 代 表 
概率 ， 如 P(the)=.022， 表 示 token“the” 的 概率 是 0.022 或 者 2.2%， 如 果 用 
W 表 示 token 序 列 ， 那 么 W3 表 示 第 三 个 token， 而 W1: 3 表示 从 第 一 个 到 
第 三 个 token。P(Wi=the|Wi-1=of) 是 tokenethe” 的 条 件 概 率 ， 表 示 在 先 验 
token“of” 下 的 概率 。 

G 公 司 语 料 库 的 一 些 细节 : 出 现 次 数 少 于 200 次 的 单词 作为 未 知 类 
型 ， 以 符号 UNK> 表 示 。 丢 弃 出 现 次 数 少 于 40 次 的 N 元 。 该 策略 减少 
了 打字 (错误) 的 影响 ， 使 得 数据 集 只 有 24G〈 压 缩 后 ) 。 最 后 ， 语 料 
库 的 每 个 句子 都 以 特殊 的 字符 <<S 二 开始 ，<=/S 二 结束 。 

我 们 现在 来 看 看 可 以 利用 该 数据 完成 的 一 些 任务 。 


分 证 


mH 


考虑 中 文 文本 “ 浮 法 像 蝴 蝶 ”， 它 的 英语 翻译 是 "float like a 
butterfly”。 它 包含 5 个 字符 ， 但 是 字符 间 没 有 空格 ， 因 此 中 文 阅读 者 需 
要 执行 分 词 : 决定 单词 的 边界 位 置 。 英 语 阅 读者 通常 不 需要 执行 分 词 ， 
因为 单词 间 存 在 空格 。 但 是 ， 一 些 文本 ， 如 URL， 通 常 不 包含 空格 ， 但 
是 有 时 输入 错误 ， 会 留 个 空格 ， 搜 索引 擎 或 文本 处 理 程序 如 何 纠正 这 样 
的 错误 呢 ? 

比如 英语 文本 “choosespain.com”， 这 是 个 网 站 ， 和 希望 你 选择 西班牙 
作为 旅行 终点 站 。 但 是 如 有 果 你 把 名 字 切 分 错误 ， 你 会 得 到 这 样 的 分 
词 “chooses pain”， 这 个 名 字 就 不 那么 吸引 人 人 了。 人工 阅 读 可 以 通过 几 年 
的 经 验 来 做 出 正确 的 决策 ; 但 是 把 这 种 经 验 编码 为 计算 机 算法 将 是 一 项 
难以 完成 的 任务 。 但 是 我 们 可 以 采取 一 种 捷径 ， 其 效率 之 好 让 人 惊讶 : 
在 二 元 表 里 查 询 每 个 词汇 。 我 们 发 现 “choose Spain” 出 现 了 3210 次 ， 
而 “chooses pain” 在 表 里 一 次 都 没有 出 现 ( 这 意味 着 它 在 1MB 的 语料库 中 
出 现 次 数 少 于 40 次 ) 。 因 此 ，“choose Spain” 出 现 至 少 80 次 ， 可 以 作为 正 
确 的 分 割 。 

假如 我 们 需要 解释 短语 “insufficientnumbers” 的 含义 ， 如 果 我 们 把 单 
词 的 大 小 写 加 起 来 ， 其 计数 是 : 


























insufficient numbers 20751 
in sufficient numbers 32378 




















“In sufficient numbers” Hi) tH MIK fay T “insufficient numbers”, {A 421% 
FFA AS AB RT UI TT © PLS AiH:e: 我 们 可 以 猜测 ， 但 是 无 法 
确定 。 对 于 类 似 这 种 不 确定 问题 ， 没 有 方法 能 够 确定 地 给 出 正确 的 值 ， 
我 们 还 没有 能 够 确保 答案 正确 的 完备 模型 ， 实 际 上 人 类 专家 也 没有 一 个 
完备 的 模型 ， 可 以 不 同意 该 答案 。 但 是 ， 解 决 不 确定 问题 有 个 确定 的 解 
决 方案 。 

1. 定 义 概率 模型 。 我 们 无 法 定义 所 有 的 因子 (语义 的 、 语 法 的 、 词 
汇 的 和 社会 的 ) 使 得 选择 “choose Spain” 对 于 一 个 域名 是 一 个 更 佳 的 候 
选 。 但 是 我 们 可 以 定义 一 个 简化 的 模型 ， 从 而 能 得 到 近似 概率 。 对 
于 “choose Spain” 这 种 简短 的 候选 ， 我 们 可 以 在 语料库 数据 中 查找 n 元 ， 
并 使 用 该 概率 。 对 于 更 长 的 候选 ， 我 们 需要 切 分 为 多 个 部 分 ， 组 合 这 些 
部 分 得 到 结果 值 。 核 心 是 我 们 定义 语言 模型 一 -在 该 语言 中 所 有 字符 串 
的 概率 分 布 一 一 从 语料库 数据 中 学 习 该 模型 参数 ， 然 后 使 用 该 模型 来 定 
义 每 个 候选 的 概率 。 

2. 枚 举 候选 项 。 我 们 无 法 确定 “insufficient numbers” 还 是 “in sufficient 
numbers” 更 可 能 是 所 期 望 的 短语 ， 但 是 我 们 可 以 确定 它们 都 是 候选 分 
审 ， 如 “in suffi cient numb ers” 也 是 候选 项 ， 但 “hello world” 不 是 有 效 的 
候选 项 。 在 该 步骤 中 ， 我 们 不 做 判断 ， 只 是 枚 举 可 能 的 候选 项 一 一 如 果 
可 以 ， 列 出 所 有 的 候选 项 ， 或 者 列 出 仔细 选择 的 一 个 样本 。 

3. 选 择 最 可 能 的 候选 项 。 对 每 个 候选 项 应 用 语言 模型 来 获得 它 的 概 
率 ， 选 择 概率 最 高 的 是 选项 。 





























如 果 你 更 习惯 于 数学 等 式 表达 ， 如 下 所 示 : 
best=argmaxc € candidates P(c) 


或 者 ， 如 果 你 更 习惯 于 计算 机 代码 表达 ， 则 如 下 : 





best=max(c in candidates, key=P) 


我 们 把 这 种 方法 用 于 分 割 中 。 定 义 一 个 冰 数 、 分 段 ， 把 不 包含 空格 
的 字符 串 作 为 输入 ， 返 回 最 佳 分 段 的 单词 列表 。 


有 
>>>segment ('choosespain' ) 
['choose', 'spain'] 


我 们 从 步骤 1 一 一 概率 语言 模型 开始 。 单 词 序列 的 概率 是 每 个 单词 概 
率 的 乘积 ， 假 设 单词 的 上 下 文 是 : 所 有 上 述 单词 。 等 式 表 达 如 下 : 

P(W1: n) =IIk=1: nP(Wk|W1: k-1) 

我 们 没有 数据 来 精确 地 计算 该 等 式 。 因 此 我 们 可 以 使 用 一 个 更 小 的 
上 下 文 来 近似 计算 。 由 于 数据 序列 大 于 五 元 ， 我 们 就 采用 五 元 文法 模 
型 ， 因 此 NN 元 文法 的 概率 即 给 定 前 级 四 个 单词 (不 是 前 级 所 有 单词 ) 的 
每 个 单词 的 乘积 。 

五 元 文法 模型 存在 三 个 难题 。 第 一 ， 五 元 数据 大 约 30G， 因 此 无 法 
全 部 装载 到 内 存 中 。 第 二 ， 很 多 五 元 计数 将 为 0， 我 们 需要 一 些 回 退 
(bcking off) 策 略 ， 使 用 更 短 的 序列 来 估计 五 元 文法 的 概率 。 第 三 ， 候 选 
项 的 搜索 空间 将 会 很 大 ， 因 为 依赖 性 扩展 到 四 个 单词 。 这 三 个 难题 花 些 
时 间 都 是 可 控 的 。 但 是 ， 我 们 首先 来 考虑 解雇 这 三 个 问题 的 一 个 更 简单 





的 语言 模型 ， 一 元 模型 ， 其 序列 概率 即 每 个 单词 自身 的 概率 乘积 。 在 一 
元 模型 中 ， 每 个 单词 的 概率 和 其 他 单词 无 关 。 
P(W1: n) =IIk=1: nP(Wk) 





对 "wheninrome' 进 行 分 割 ， 考 虑 这 些 候选 项 ， 如 when in rome， 人 然后 
计算 P(when)xP(in)xP(rome)。 如 果 该 候选 项 的 乘积 高 于 任何 其 他 候选 
项 ， 那 么 它 就 是 最 佳 答案 。 

n 个 字符 的 字符 串 包 含 2n-1 个 不 同 的 分 割 方式 〈 字 符 间 有 n-1 个 位 置 ， 
每 个 位 置 都 可 以 作为 分 割 边界 ) 。 因 此 ， 字 符 
Æ 'wheninthecourseofhumaneventsitbecomesnecessary' 47 35TH) 4j | 77 
式 。 但 是 我 确定 你 可 以 在 几 秒 钟 内 找到 合适 的 分 割 方式 ， 显 然 ， 你 不 可 
能 枚 举 所 有 的 候选 类 型 。 你 可 能 浏览 了 “w”、“wh” 和 “whe”， 并 作为 不 
可 能 的 单词 放弃 它们 ， 而 接受 “when” 作 为 可 能 的 分 割 方式 。 然 后 继续 剩 
余部 分 ， 并 找到 它们 的 最 佳 分 段 方 式 。 一 旦 我 们 简化 假设 每 个 单词 和 其 
他 的 单词 是 不 一 样 的 ， 那 意味 着 我 们 不 需要 考虑 单词 的 所 有 组 合 。 

以 上 简单 地 给 我 们 描述 了 segment 函 数 : 考虑 把 文本 划分 为 一 个 起 始 
单词 和 剩余 文本 的 所 有 方式 〈 可 以 任意 限制 单词 最 大 长 度 ， 如 L=20 个 字 
BE) 。 对 于 每 种 可 能 的 划分 ， 找 到 对 剩余 文本 分 词 的 最 佳 方式 。 在 所 有 
的 候选 项 中 ， 乘 积 P(firsD)xP(remaining) 值 最 高 的 即 为 最 佳 方案 。 

这 里 我 们 用 一 个 表格 来 说 明 这 个 问题 。 表 格 中 包含 了 第 一 个 单词 的 
所 有 候选 、 该 单词 的 概率 、 剩 余 单词 的 最 佳 分 词 概率 以 及 所 有 的 概率 
《 即 第 一 个 单词 和 剩余 单词 的 概率 的 乘积 ) 。 我 们 发 现 ， 以 “when” 开 始 














的 分 词 概率 是 第 二 个 最 佳 候选 的 5 万 倍 。 


first P( first) | P(remaining) | P(first) x P(remaining) 
W 2«10^ 2«10?? 6*1077 
wh | 5.106 | 6010733 | 3010738 
whe | 301077 | 3«10?? | 7*107? 
when | 6.104 | 7910729 | 401072? 
wheni | 1910776 | 3010 | 3010% 
whenin | 4010727 | 8«1077 | 8e1074 


我 们 可 以 通过 几 行 Python 代码 来 实现 分 词 : 





@memo 

def segment (text): 

"Return a list of words that is the best segmentation of text." 
if not text:return[] 

candidates- ([first]+segment (rem) for first,rem in splits (text)) 
return max(candidates,key-Pwords) 

def splits(text,L-20) : 






















































































"Return a list of all possible(first,rem)pairs,len(first) «-L." 
return[(txt[: i+1], text[i-1: ]) 
for i in range (min (len (text), L)  ] 


def Pwords (words): 
"The Naive Bayes probability of a sequence of words." 
return product(Pw(w)for win words) 





























这 是 整个 程序 一 一 包含 三 个 较 小 的 省 略 部 分 : product 是 把 数字 列表 
进行 乘积 的 工具 函数 ; memo 是 一 个 装饰 器 (dcorator)， 对 函数 product 的 
结果 进行 缓存 ， 因 而 这 些 结果 就 不 需要 重新 计算 ;Pw 通过 询问 单元 计 
数 数据 来 估计 一 个 单词 的 概率 。 

没有 装饰 器 memo， 对 一 个 包含 了 n 个 字符 的 文本 段 的 调用 会 导致 对 
该 段 的 2n 次 递归 调用 ， 有 了 memo， 它 就 只 执行 n 次 调用 一 一 memo 使 得 
调用 变 成 一 个 高 效 的 动态 编程 算法 。 对 于 n 次 调用 ， 每 个 都 需要 考虑 
O(L) 次 的 分 片 ， 对 每 个 分 片 乘 以 O(n) 的 概率 来 估算 每 个 分 片 的 代价 ， 











此 整个 算法 代价 是 OO 所 ) 。 

对 于 P w， 我 们 从 一 个 数据 文件 读 取 单 元 计数 值 。 如 果 一 个 单词 在 语 
料 库 中 出 现 ， 它 的 估计 概率 是 Count(wordyN， 其 中 N 是 语料库 的 大 小 。 
实际 上 ， 我 没有 采用 1300 万 类 型 的 单元 数据 文件 ， 而 是 创建 了 
Vocab_common， 它 有 几 方 面 特性 : (1) 大 小 写 不 敏感 ， 

此 “the”、“The” 和 “THE” 的 计数 值 都 加 在 一 起 ， 作 为 一 个 词 条 的 “the”; 
(2) 词 条 是 由 字母 表示 的 ， 而 不 是 数字 或 者 标点 符号 〈 因 

此 “+170.002” 不 能 作为 词 条 ， 同 样 “can't* 也 不 能 ;， (3) 100 万 单词 中 最 
通用 的 /3 单词 。 

Pw 唯一 较 难处 理 的 部 分 是 当 一 个 单词 不 在 语料库 中 时 如 何 处 理 更 为 
合适 。 即 使 是 在 包含 了 10000 亿 个 单词 的 语料库 中 ， 这 种 情况 有 时 也 会 
发 生 ， 因 此 把 概率 当做 0 返回 是 错误 的 。 但 是 它 应 该 为 多 少 呢 ?语料库 
中 的 token 个 数 N， 几 乎 有 10000 亿 ，vocab_common 中 最 不 经 常 出 现 单词 
有 12711 个 。 因 此 之 前 没有 看 见 的 单词 ， 其 概率 应 该 在 0 一 12711N。 不 
是 所 有 未 见 到 的 单词 的 概率 都 是 一 样 的 : 一 个 有 20 个 字母 的 随机 序列 是 
单词 的 概率 要 小 于 一 个 有 6 个 字母 的 随机 序列 。 我 们 将 为 概率 分 布 定 义 
一 个 类 Pdist， 它 加 载 一 个 内 容 是 (ky,count) 对 的 数据 文件 。 默 认 情 况 下 ， 
一 个 未 知 单词 的 概率 是 WN， 但 是 Pdist 的 每 个 实例 可 以 提供 一 个 自 定义 
函数 对 默认 值 进行 重 载 (oerride]。 为 了 避免 对 于 很 长 的 单词 概率 太 高 ， 
因此 我 们 确定 (相当 随意 ) 了 一 个 起 始 概率 100N， 对 于 候选 单词 中 的 每 
个 字母 ， 以 因子 10 来 人 递减。 我 们 定义 Pw 为 一 个 如 下 的 Pdist: 























class Pdist(dict): 


























































































































"A probability distribution estimated from counts in datafile." 
def init  (slf,data,N-None,missingfn-None): 
for key,count in data: 
self[key]-self.get(key, 0) +int (count) 
self.N-float(N or sum(self.itervalues () ) ) 
self.missingfn-missingfn or(lambda k,N: 1./N) 
def call  (slf,key): 
if key in self:return self[key]/self.N 
else:return self.missingfn(key,self.N) 
') ; 











def datafile (name, sep='\t : 
"Read key,value pairs from file." 

for line in file (name): 

yield line.split (sep) 

def avoid long words (word,N) : 

"Estimate the probability of an unknown word." 
return 10./ (N*10**len (word) ) 
N=1024908267229##Number of tokens in corpus 

Pw=Pdist (datafile ('vocab common') , N,avoid long words)? 


















































注意 ，Pw[w] 是 单词 w 的 原始 计数 ， 而 Pw(w) 是 它 的 概率 。 本 草 描述 
的 所 有 程序 都 能 够 通过 http: //norvig.com/ngrams3 f$ . 
因此 ， 该 模型 分 割 的 效果 如 何 呢 ? 以 下 是 一 些 实例 : 




































































>>>segment ('choosespain' ) 
['choose', 'spain'] 
>>>segment ('thisisatest') 
['this', 'is', 'a', 'test'] 
>>>segment ('wheninthecourseofhumaneventsitbecomesnecessary') 
['when', 'in', 'the', 'course', 'of', 'human', 'events', 'it', 'become 
27 segment ('whorepresents') 
['who', 'represents'] 
>>>segment ('expertsexchange') 
['experts', 'exchange'] 
>> >segment ('speedofart') 
['speed', 'of', 'art'] 
>>>segment ('nowisthetimeforallgood') 
['now', 'is', 'the', 'time', 'for', 'all', 'good'] 
>>>segment ('itisatruthuniversallyacknowledged') 
['it', 'is', 'a', 'truth', 'universally', 'acknowledged'] 
>>> 
segment ('itwasabrightcolddayinaprilandtheclockswerestrikingthirteen' ) 
['it', 'was', 'a', 'bright', 'cold', 'day', 'in', 'april', 'and', 'the 




































































"were! striking', 'thirteen'] 
>>> 

segment ('itwasthebestoftimesitwastheworstoftimesitwastheageofwisdomit 
offoolishness') 
['it', 'was', 'the', 'best', 'of', 'times', 'it', 'was', 'the', 'worst 
'it', 'was', 'the', 'age', 'of', 'wisdom', 'it', 'was', 'the', 'age' 
'foolishness'] 
>>> 

segment ('asgregorsamsaawokeonemorningfromuneasydreamshefoundhimselftr 
inhisbedintoagiganticinsect' ) 
['as', 'gregor', 'samsa', 'awoke', 'one', 'morning', 'from', 'uneasy' 
'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', '« 
'insect'] 
>>> 

segment ('inaholeinthegroundtherelivedahobbitnotanastydirtywetholefill 






























































endsofwormsandanoozysmellnoryetadrybaresandyholewithnothinginittosi 
itwasahobbitholeandthatmeanscomfort' ) 
['in', 'a', 'hole', 'in', 'the', 'ground', 'there', 'lived', 'a', 'hok 
'nasty', 'dirty', 'wet', 'hole', 'filled', 'with', 'the', 'ends', 'of' 
'an', 'oozy', 'smell', 'nor', 'yet', 'a', 'dry', 'bare', 'sandy', 'hol 
'nothing', 'in', 'it', 'to', 'sitdown', 'on', 'or', 'to', 'eat', 'it', 
'hobbit', 'hole', 'and', 'that', 'means', 'comfort'] 
>>> 

segment ('faroutintheunchartedbackwatersoftheunfashionableendofthewest 
armofthegalaxyliesasmallunregardedyellowsun' ) 
['far', 'out', 'in', 'the', 'uncharted', 'backwaters', 'of', 'the', " 
'end', 'of', 'the', 'western', 'spiral', 'arm', 'of', 'the', 'galaxy', 
'small', 'un', 'regarded', 'yellow', 'sun'] 





看 到 程序 正确 地 对 一 些 生僻 的 单词 如 “Samsa” 和 “oozy” 进 行 分 割 ， 你 
可 能 会 很 高 兴 。 对 于 “Samsa” 在 10000 亿 个 单词 中 出 现 了 42000 
次 ， ic ir digas 你 应 该 不 会 太 惊讶 。 分 割 的 整体 结果 看 起 
来 不 错 ， 但 是 有 两 个 错误 : "un'、'regarded' 应 该 是 一 个 单词 ， 
而 'sitdown' 应 该 是 两 个 单词 。 尽 管 如 此 ， 分 词 的 准确 率 是 
157/159=98.7%， 还 是 不 错 的 。 

第 一 个 错误 是 由 于 “unregarded” 在 我 们 的 三 十 多 万 单词 的 词汇 里 ( 它 
在 所 有 单词 词汇 中 的 位 置 是 1005493， 计 数值 是 7557) 。 如 果 我 们 把 它 








放 入 词汇 中 ， 我 们 发 现 之 前 的 分 词 是 正确 的 。 





>>>Pwl['unregarded'!]=7557 

>>> 
segment ('faroutintheunchartedbackwatersoftheunfashionableendofthewest 

armofthegalaxyliesasmallunregardedyellowsun' ) 

['far', 'out', 'in', 'the', 'uncharted', 'backwaters', 'of', 'the', "1 
































这 并 没有 证 明 我 们 解决 了 问题 : 我 们 需要 放 回 所 有 其 他 的 干扰 单 
词 ， 而 不 仅仅 是 我 们 需要 的 那个 ， 而 且 我 们 需要 返回 所 有 的 测试 案例 ， 
确保 增加 其 他 的 单词 并 没有 混淆 了 任何 其 他 的 结果 。 

第 二 个 错误 是 虽然 “sit* 和 “down” 是 频繁 词 ( 概 率 分 别 为 0.003% 和 
0.04%) ， 但 是 这 两 个 单词 的 概率 乘积 刚好 略 小 于 “sitdown” 这 个 单词 本 
身 的 概率 。 根 据 二 元 计数 ， 两 个 单词 序列 “sit down” 的 概率 比 其 分 别 的 
概率 乘积 约 大 100 倍 。 我 们 可 以 通过 对 二 元 建 模 来 解决 这 个 问题 ， 也 就 
是 说 ， 考 虑 每 个 单词 的 概率 ， 给 定 前 一 个 单词 的 概率 是 : 

P(W1: n) -IIk-1: nP(Wk|Wk-1) 

当然 ， 整 个 二 元 单词 表 无 法 全 部 装载 到 内 存 中 。 如 果 我 们 只 保留 出 
现 100000 次 以 上 的 三 元 日 词 ， 结 果 就 有 250000 多 的 入 口 项 ， 这 也 无 法 装 
载 到 内 存 中 。 然 而 ， 我 们 可 以 通过 Count(sit down)/Count(sit) 来 估计 概率 
P(downlsit)。 如 果 一 个 二 元 单词 在 表 中 不 出 现 ， 我 们 就 通过 单元 值 来 计 
算 。 在 一 个 单词 的 前 序 单词 给 定 的 情况 下 ， 我 们 可 以 定义 这 个 单词 的 条 
件 概 率 cPw 如 下 : 














def cPw(word,prev): 
"The conditional probability P(word|previous-word) ." 
try: 








return P2w[prevt+''+word]/float (Pw[prev] ) 
except KeyError: 

return Pw(word) 

P2w=Pdist (datafile ('count2w') , N) 

















细心 的 人 会 注意 到 cPw 不 是 概率 分 布 ， 因 为 对 于 一 个 给 定 的 先 验 
单词 ， 所 有 单词 的 概率 之 和 会 超过 1。 这 种 方法 的 技术 名 称 是 “愚蠢 回 
退 ”(supid backoff)， 但 其 实际 效果 很 不 错 ， 因 此 我 们 不 用 担心 。)〉 我们 
现在 来 比较 包含 先 验 单词 “to”"、“sitdown” 和 “sit down” 的 概率 : 











>>>cPw ('sit', 'to') *cPw ('down', 'sit') /cPw ('sitdown', 'to') 
1698.0002330199263 





我 们 发 现 “sit down” 比 “sitdown” 的 概率 高 1698 倍 ， 因 为 “sit down” ze — 
个 高 频 的 二 元 项 ， 而 且 “to sit” 词 频 很 高 ， 而 “to sitdown” 词 频 不 高 。 

这 看 起 来 振奋 人 心 : 让 我 们 用 二 元 模型 来 实现 新 版 的 分 词 。 但 要 实 
现 这 种 新 版 分 词 ， 我 们 还 需要 解决 另外 两 个 问题 

1. 当 给 一 个 由 n 个 单词 构成 的 序列 增加 一 个 新 的 单词 时 ， 它 调用 
Pwords 来 对 这 n+1 个 概率 值 进行 乘法 运算 。 但 是 分 词 时 ， 原 有 的 n 个 概率 
值 已 经 做 过 一 次 运算 处 理 了 。 将 每 个 元 素 的 运算 结果 也 就 是 概率 值 保 存 
起 来 ， 这 样 添 加 一 个 单词 的 时 候 就 只 需要 另外 执行 一 次 运算 ， 因 此 分 词 
也 将 更 为 高 效 。 

2. 可 能 存在 算术 运算 向 下 溢出 问题 。 如 果 我 们 把 Pwords 应 用 于 一 个 
出 现 了 61 次 “blah”* 之 后 的 序列 ， 我 们 将 得 到 5.2x101 的 概率 ， 而 如 果 再 
加 上 一 个 “blah”， 其 概率 为 0.0。 我 们 能 够 表示 的 最 小 正 浮 点 数 是 4.9x10- 
324. 任何 小 于 该 值 的 概率 都 置 为 0.0。 为 了 避免 向 下 溢出 ， 最 简单 的 解 




















决 方案 是 对 这 些 数 值 使 用 对 数 运算 而 非 直接 进行 乘法 运算 。 

我 们 将 定义 “segment2”( 分 词 2) ， 它 和 分 词 有 三 个 方面 的 区 别 : 第 
一 ， 它 使 用 了 条 件 二 元 语言 模型 ，cPw， 而 不 是 单元 模型 Pw。 第 二 ， 函 
数 特征 是 不 同 的 。 “segment2? 除 了 需要 把 “文本 ”作为 一 个 参数 传递 给 函 
数 之 外 ， 还 需要 将 这 段 文本 的 一 个 单词 也 传递 给 函数 。 在 句子 的 开始 ， 
前 一 个 单词 是 句子 的 起 始 标记 <S> 之 ;其 返回 值 也 不 只 是 一 个 单词 的 序 
列 ， 而 是 包含 了 两 项 内 容 : 分 词 的 概率 和 单词 序列 。 我 们 返回 概率 ， 

样 可 以 把 它 保存 起 来 〈 通 过 记录 的 装饰 器 memo)， 不 需要 重新 计算 ;， 这 
解决 了 问题 : COD 的 效率 低 问 题 。 合 并 函数 接受 四 个 输入 : 第 一 个 单 
词 、 剩 下 的 单词 以 及 它们 分 别 的 概率 。 合 并 函数 会 把 第 一 个 单词 添加 到 

其 他 单词 后 面 ， 并 对 所 有 的 概率 值 进行 乘法 运算 。 但 为 了 解决 问题 
(2) 0 我们 引入 了 第 三 个 区 别 : 不 对 概率 值 直接 进行 乘法 运算 而 是 对 
概率 的 对 数 执行 加 法 运算 。 

以 下 “segment2” 的 代码 : 











from math import log10 
@memo 
def segment2(txt,prev='<S>'): 
"Return(log P(words), words), where words is the best 
segmentation." 
if not text:return 0.0, [] 
candidates=[combine(log10(cw(first,prev) ) ， 
first, segment2 (rm, first) ) 
for first,rem in splits (text) ] 
return max (candidates) 
def combine(Pfirst,first, (Pem,rem)) : 
"Combine first and rem results into one(probability,words) pair." 
return Pfirst+Prem, [first]+rem 













































































segment2 执 行 了 OOL) 次 的 递归 调用 ， 每 次 调用 需要 考虑 O(L) 次 的 切 
分 ， 因 此 整个 算法 的 复杂 度 是 OOnL2) 。 实 际 上 ， 这 就 是 Viterbi 算 法 ， 
memo 隐 含 地 创建 Viterbi 表 。 

segment2 正 确 地 对 “sit down” 例 子 进行 分 割 ， 第 一 个 版 本 中 能 正确 切 
分 的 例子 ， 在 这 个 版 本 中 也 仍然 是 正确 的 。 但 这 两 个 版 本 
对 “unregarded” 的 分 词 都 不 正确 。 

我 们 能 否 在 性 能 上 有 所 提升 ? 很 有 可 能 。 我 们 可 以 对 未 知 单词 创建 
一 个 更 精确 的 模型 ， 可 以 组 合 更 多 的 数据 ， 或 者 在 单元 数据 或 者 二 元 数 
据 中 保留 更 多 的 入 口 项 ， 或 者 添加 三 元 数据 。 

加 乘法 运算 的 向 下 洪 出 问题 。 


我 们 所 面临 的 第 三 个 挑战 是 对 加 密 的 消息 进行 解密 。 我 们 首先 一 起 
来 看 看 蔡 换 加 密 ， 即 使 用 一 个 字母 亚 换 另 一 个 字母 。 对 其 中 答 换 关系 的 
描述 称 为 密 钥 ， 可 以 通过 26 个 字母 的 字符 串 来 表示 它 : 第 一 个 字母 蔡 
换 “a”， 第 二 个 字母 蔡 换 “b”" 等 。 以 下 是 通过 葵 换 密码 密 钥 对 消息 进行 加 
密 (Pthon 的 库 函 数 maketrans 和 translate 可 以 实现 大 部 分 功能 

















def encode (msg, key): 

"Encode a message with a substitution cipher." 

return msg.translate(string.maketrans (ul (alphabet), ul(key)) ) 
def ul(text): return text.upper () +text.lower () 
alphabet-'abcdefghijklmnopqrstuvwxyz' 





























能 所 有 代码 中 最 简单 的 就 是 移 位 加 密 ， 它 是 一 种 蔡 换 加 密 方法 ， 
在 这 种 加 密 方 法 中 ， 消 妃 中 的 每 个 字母 都 由 其 后 面 的 第 n 个 字母 进行 答 
换 。 如 果 n=1， 那 么 “b” 蔡 换 “a”，“c” 替 换 “b”...... 直 到 “a” 蔡 换 “z”。 移 位 
加 蜜 也 被 称 为 凯撒 (Cesan 加 密 法 ; 它们 在 公元 前 50 多 年 很 先进 。 变 换 
(sift) R BAE H REDI BJ SE TT Aat: 











def shift (msg,n-13) : 

"Encode a message with a shift(Caesar)cipher." 
return encode (msg,alphabet[n: ]+alphabet[: n]) 

我 们 如 下 使 用 该 函数 : 

>>>shift ('Listen,do you want to know a secret?') 
'Yvfgra,qb lbh jnag gb xabj n frperg?' 

>>>shift ('HAL 9000 xyz', 1) 

"IBM 9000 yza' 
























































在 不 知道 密 钥 的 情况 下 进行 解密 ， 我 们 遵循 和 分 段 相同 的 方法 : 定 
义 一 个 模型 (我 们 将 继续 采用 单元 单词 概率 方式 ) ， 枚 举 候选 项 并 选择 
最 有 可 能 的 。 由 于 只 需要 考虑 26 种 候选 移 位 ， 所 以 我 们 可 以 尝试 全 部 候 
选 移 位 。 

为 了 实现 这 一 点 ， 我 们 定义 函数 logPwords， 它 和 函数 Pwords 相 似 ， 
但 是 它 返 回 的 是 概率 的 自然 对 数值 ， 其 输入 可 以 是 一 个 很 长 的 字符 串 ， 
也 可 以 是 一 个 单词 序列 : 











def logPwords (words): 

"The Naive Bayes probability of a string or sequence of words." 

if isinstance(words,str): words=allwords (words) 

return sum(log10(P(w)) for w in words) 

def allwords (text): 

"Return a list of alphabetic words in text,lowercase." 

return re.findall ('[a-z]+', text.lower (O) ) 

现在 我 们 可 以 枚 举 所 有 候选 项 进行 解码 并 挑选 最 有 可 能 的 : 

def decode shift (msg): 

"Find the best decoding of a messag ncoded with a shift cipher." 
candidates- [shift (msg,n) for n in range(len(alphabet)) ] 

return max(candidates,key-logPwords) 

我 们 可 以 通过 测试 来 检查 这 种 方式 是 否 能 够 工作 : 
>>>decode_ shift ('Yvfgra,qb lbh jnag gb xabj n frperg?') 
'Listen,do you want to know a secret?! 





























































































































XWR MES. AS BEATA, WEED P267 15326 JU, 
以 及 它们 的 概率 对 数值 : 



























































Yvfgra,qb lbh jnag gb xabj n frperg?-84 
Zwghsb,rc mci kobh hc ybck o gsqfsh?-83 
Axhitc,sd ndj lpci id zcdl p htrgti?-83 
Byijud,te oek mqdj je adem q iushuj?-77 
Czjkve,uf pfl nrek kf befn r jvtivk?-85 
Daklwf,vg qgm osfl lg cfgo s kwujw1?-91 
Eblmxg,wh rhn ptgm mh dghp t lxvkxm?-84 
Fcmnyh,xi sio quhn ni ehiq u mywlyn?-84 
Gdnozi,yj tjp rvio oj fijr v nzxmzo?-86 
































Heopaj,zk ukq swjp pk gjks w oaynap?-93 
Ifpqbk,al vlr txkq gl hklt x pbzobq?-84 
Jgqrcl,bm wms uylr rm ilmu y qcapcr?-76 
Khrsdm,cn xnt vzms sn jmnv z rdbqds?-92 
Listen,do you want to know a secret?-25 
MjtufO'ep zpv xbou up lopx b tfdsfu?-89 
Nkuvgp,fq aqw ycpv vq mpqy c ugetgv?-87 
Olvwhq,gr brx zdqw wr nqrz d vhfuhw?-85 
Pmwxir,hs csy aerx xs orsa e wigvix?-77 


Qnxyjs,it dtz bfsy yt pstb f xjhwjy?-83 





























Royzkt,ju eua cgtz zu qtuc g ykixkz?-85 
Spzalu,kv fvb dhua av ruvd h zljyla?-85 
Tqabmv,lw gwc eivb bw svwe i amkzmb?-84 
Urbcnw,mx hxd fjwc cx twxf j bnlanc?-92 
Vscdox,ny iye gkxd dy uxyg k combod?-84 
Wtdepy,oz jzf hlye ez vyzh 1 dpncpe?-91 
Xuefqz,pa kag imzf fa wzai m eqodqf?-83 























当 你 扫描 列表 时 ， 刚 好 一 条 线 很 明显 ， 类 似 英语 ， 而 Pwords 和 我 们 
的 直觉 一 致 ， 假 设 该 行 的 概率 的 对 数值 是 -25〈 即 10-”) ， 它 的 可 能 性 
是 任何 其 他 候选 项 的 107 倍 多 。 

代码 编写 者 通过 消除 单词 之 间 的 标点 符号 、 空 格 和 大 小 写 区 别 ， 使 
得 解码 者 的 工作 变 得 更 加 困难 。 采 用 这 种 方式 ， 解 码 者 无 法 从 简短 的 单 
GUT”, “Mhe HAS SVEMA A, HINA S OO 之 后 的 
字符 应 该 是 “s” 还 是 “%t*。 函 数 shift2 是 一 种 加 密 方 法 ， 它 删除 了 非 学 符 的 
数据 ， 把 所 有 的 字符 都 转换 成 小 写 ， 然 后 再 应 用 变换 加 密 方法 : 











def shift2 (mg,n-13) : 

"Encode with a shift(Caesar) cipher, yielding only letters[a-z]. 
return shift (just letters (msg), n) 

def just letters (text): 

"Lowercase text and remove all characters except[a-z]." 

return re.sub ('[^a-z]', '', text.lower () ) 















































以 下 是 破译 这 段 代 码 的 一 种 方式 ， 通 过 枚 举 每 个 候选 项 ， 对 每 个 候 


选项 分 段 ， 并 选择 概率 值 最 高 的 那个 分 段 : 











def decode shift2 (mg): 

"Decode a message encoded with a shift cipher,with no spaces." 
candidates=[segment2 (sift (msg,n) ) for n in range(len(alphabet) ) ] 
p,words=max (candidates) 

return''.join (words) 




















我 们 一 起 来 看 它 是 如 何 工 作 的 : 











>>>shift2 ('Listen,do you want to know a secret?') 

'yvfgraqblbhjnaggbxabjnfrperg' 

>>>decode_ shift2 ('yvfgraqblbhjnaggbxabjnfrperg') 

'listen do you want to know a secret' 

>>>decode_ shift2(sift2 ('Rosebud') ) 

'rosebud' 

>>>decode_shift2(sift2 ("Is it safe?") ) 

‘is it safe' 

>>>decode_ shift2(sift2 ("What's the frequency,Kenneth?") ) 

"whats the frequency kenneth' 

> >>msg='General Kenobi:Years agO'you served my father in the 
Clone 

Wars; now he begs you to help him in his struggle against the 
Empire. ' 

>>>decode_shift2(sift2 (mg) ) 

"general kenobi years ago you served my father in the clone wars 
now he 

begs you to help him in his struggle against the empire' 











































































































这 还 是 太 简 单 了 。 我 们 一 起 来 看 看 通用 的 密码 蔡 换 方案 ， 在 这 种 方 
案 中 ， 任 何 字母 都 可 以 被 其 他 字母 蔡 换 。 现 在 我 们 无 法 继续 枚 举 所 有 的 
概率 ， 因 为 总 共有 26! (454x106) 种 密 钥 ， 而 不 再 仅仅 是 26 种 。 
Simon Singh《〈 编 码 鼻 祖 ) 编写 的 《The Code Book》 提 供 了 五 种 策略 
《我 们 自己 在 后 面 增加 了 第 六 种 ) 来 破解 密码 : 

1. 字 母 一 元 模型 频率 。 匹 配 消 息 中 的 常用 字母 到 英语 中 的 常用 字母 








Chie”) ， 匹 配 不 常用 字母 到 不 常用 字母 (如 “z”) 。 

2. 双 字 字 和 母 分 析 。 加 密 消 息 中 的 双 字 字母 ， 在 消息 解密 后 还 是 双 字 
字母 。 考 虑 最 生僻 和 最 常用 的 双 字 字母 。 

3. 找 常见 的 单词 如 “the”、“and” 和 “of”。 单 字母 单词 通常 是 “a” 或 “I”。 

4. 可 能 的 话 ， 获 取 一 个 由 你 处 理 的 消息 类 型 所 组 成 的 词 频 表 。 如 军 
事 消息 使 用 军事 术语 等 。 

5. 猜 测 一 个 单词 或 者 短语 。 例 如 ， 如 果 你 觉得 消息 可 能 包含 “your 
faithful servant”， 就 大 胆 猜测 它 。 

6. 使 用 单词 模式 。 例 如 ， 加 密 单 词 “<abbccddedf” 很 可 能 表 
示 “bookkeeper”， 因 为 在 词典 库 中 没有 其 他 单词 满足 这 种 模式 。 

对 于 单词 间 不 包含 空格 的 消息 ， 策 略 3 和 策略 6 都 不 适合 。 策 略 1 和 策 
略 2 每 种 只 包含 26 种 概率 ， 而 且 似乎 目标 受众 是 有 一 定 记忆 和 计算 能 
的 分 析 人 员 ， 而 不 是 一 个 计算 机 程序 。 策 略 4 和 策略 5 是 为 了 某 个 特殊 用 
途 ， 而 不 是 通用 的 解码 方式 。 看 起 来 我 们 只 能 依赖 于 自己 提出 的 策略 
6。 但 是 我 们 知道 应 该 如 何 实现 该 方法 。 

第 一 ， 定 义 一 个 概率 模型 ; 我 们 可 以 采用 处 理 移 位 加 密 时 所 用 的 方 
式 来 评估 候选 项 : 对 文本 分 段 ， 计 算 单 词 的 概率 。 但 是 考虑 该 方法 的 第 
二 个 步骤 ， 刚 开始 几 个 (或 者 几 千 个 ) 候选 项 可 能 是 很 差 的 候选 。 在 开 
始 探 索 时 ， 我 们 没有 任何 类 似 于 单词 的 东西 ， 因 此 在 刚 开始 就 对 文本 分 
段 的 意义 不 大 。 然 而 ， 我 们 可 能 (或 者 只 是 碰巧 ) 对 一 行 的 几 个 字母 进 
行 解码 ， 生 成 有 意义 的 结果 。 因 此 ， 我 们 使 用 NN 元 文法 模型 而 不 是 单词 
































来 构建 语言 模型 。 我 们 应 该 采用 字母 二 元 文法 模型 ? 还 是 三 元 文法 模 
型 ? 抑或 五 元 文法 模型 ? 我 选择 字母 三 元 文法 模型 是 因为 它 是 能 够 表示 
常用 词 〈 策 略 3) 的 最 短 的 文法 模型 。 我 通过 一 个 单词 二 元 字母 数据 文 
件 (不 能 只 看 词汇 文件 ， 因 为 需要 考虑 单词 边际 间 的 字母 三 元 文法 模 
型 ) ， 对 三 元 字母 〈 删 去 了 空格 和 标点 符号 ) 进行 计数 ， 生 成 数据 文件 
count_31。 它 总 共 包含 263=17576 个 三 元 字母 组 合 。 以 下 是 出 现 频 率 最 高 


和 最 低 的 10 个 三 元 字母 组 合 : 









































the 2.763$fzq 0.0000004$ 
ing 1.471$jvq 0.0000004$ 
and 1.462$jnq 0.0000004% 
ion 1.343$zqh 0.0000004$ 
tio 1.101$jqx 0.0000003$ 
ent 1.074$jwq 0.0000003% 
for 0.8842jqy 0.0000003% 
ati 0.852$zqy 0.0000003% 
ter 0.728$jzq 0.0000002% 
ate 0.672$zgq 0.0000002% 





三 元 字母 组 合 的 概率 计算 如 下 : 





def logP3letters (text): 

"The log-probability of text using a letter 3-gram model." 
return sum(logl0 (P31(g)) for g in ngrams(text, 3) ) 
P31=Pdist (datafile ('count 31') ) 

P21=Pdist (datafile ('count 21') ) ##We'll need it later 






























































第 二 ， 枚 举 候 选项 : 我们 无 法 考虑 全 部 的 4x10% 种 可 能 的 密 钥 ， 而 
似乎 没有 什么 方法 可 以 像 文本 分 段 那样 ， 系 统 性 地 消除 非 最 优 候选 项 。 
这 种 情况 下 ， 需 要 本 地 搜索 策略 ， 如 “ 故 山 算法 ?人 hll climbing)。 假 设 你 
想 要 到 达 最 高 峰 ， 但 是 没有 地 图 。 通 过 扑 山 算法 的 策略 ， 你 可 以 从 随机 








位 置 x 开 始 ， 回 相 邻 位 置 走 一 步 。 如 果 该 位 置 比 之 前 位 置 高 ， 继 续 从 那 
里 开始 “ 扑 山 ” 如果 不 是 ， 则 考虑 x 的 男 一 个 相 令 位置。 当然 ， 如 果 你 
从 地 球 上 随机 一 个 位 置 开始 步行 上 山 ， 你 可 能 无 法 到 达 珠 穆 度 玛 峰 的 顶 
部 。 更 有 可 能 的 是 ， 你 到 达 了 某 个 地 方 的 小 山头 ， 或 者 困 在 一 个 平原 里 
到 处 走 。 因 此 ， 我 们 为 仆 山 算法 增加 了 随机 次 数 的 重 试 。 在 完成 这 些 步 
又 后 ， 我 们 开始 从 一 个 新 的 随机 位 置 从 头 开始 。 

以 下 是 通用 的 讨 山 算法 。 它 包含 起 始 位 置 x， 我 们 正 试 着 优化 的 函数 
f， 生 成 一 个 位 置 的 相 邻 位 置 的 函数 neighbors， 以 及 最 多 采取 的 步骤 。 
如果 变量 调试 是 真实 的 ， 它 会 输出 最 佳 的 位 置 x 及 其 分 值 ) 。 





def hillclimb(x,f,neighbors,steps=10000) : 
"Search for an x that miximizes f(x), considering neighbors (x)." 
Fx=f (x) 

neighborhood=iter (neighbors (x)) 

for i in range(steps): 
x2=neighborhood.next () 

Fx2-f (x2) 

if fx2--fx: 

x,fx=x2, fx2 

neighborhood-iter (neighbors (x)) 

if debugging:print'hillclimb: ', x,int(fx) 
return x 

debugging-False 







































































为 了 使 用 讨 山 算法 来 解码 ， 我 们 需要 指定 参数 。 我 们 将 要 搜索 的 位 
置 是 纯 文 本 《解码 后 的 ) 消息 。 我 们 将 试 着 最 大 化 三 元 字母 组 词 频 ， 因 
此 ， 设 置 函数 f=logP3letters。 从 根据 随机 的 密 钥 解码 生成 的 x 位 置 开始 ， 
做 随机 次 数 的 重 试 ， 但 是 当 从 每 次 重 试 中 收集 候选 项 时 ， 我 们 会 根据 
segment2， 选 择 最 佳 的 一 个 候选 项 ， 而 不 是 根据 函数 logP3letters: 








def decode subst (msg, steps=4000; restarts=20) : 

"Decode a substitution cipher with random restart hillclimbing." 
msg=cat (allwords (msg) ) 
candidates=[hillclimb (encode (msg, key=cat (shuffled (alphabet)) ) , 
logP3letters,neighboring msgs, steps) 
for in range(restarts) ] 
p,words-max(segment2(c)for c in candidates) 
return''.join (words) 

def shuffled(seq): 

"Return a randomly shuffled copy of the input sequence." 
seq-list(seq) 

random.shuffle(seq) 

return seq 

cat-''.join 



















































































现在 ， 我 们 需要 定义 相 邻 消息 函数 neighboring_ msgs， 它 生成 下 一 步 
要 尝试 的 消息 的 解码 。 我 们 首先 尝试 "修复 ”不 可 能 的 二 元 字母 组 。 举 个 
例子 ， 最 不 频繁 出 现 的 二 元 字母 组 合 “jq” 的 概率 是 0.0001%， 它 比 最 频 
繁 出 现 的 二 元 字母 组 合 “in” 和 “th” 的 概率 低 5 万 倍 。 因 此 ， 如 果 我 们 在 消 
息 中 看 到 “jq”， 我 们 试 着 把 ”和 其 他 每 一 个 字母 进行 交换 ， 同 样 也 交 
换 “q”。 如 果 一 个 交换 生成 更 频繁 的 二 元 字母 组 ， 那 么 我 们 生成 由 这 次 
交换 得 到 的 消息 。 在 遍历 20 次 最 不 可 能 出 现 的 二 元 字母 组 “修复 ”后 ， 我 
们 考虑 随机 交换 : 











def neighboring msgs (msg): 

"Generate nearby keys,hopefully better ones." 

def swap(a,b) : return msg.translate(string.maketrans (a+b,b+a) ) 
for bigram in heapq.nsmallest (20, set(ngrams (msg, 2) ) , P21): 



































bl, b2-bigram 

for c in alphabet: 

if bl--b2: 

1£P21(c+c) >P21(bigram): yieldswap(c,b1) 
else 

if P21 (ctb2) >P21(bigram): yield swap(c,b1) 
if P21 (bl+c) >P21(bigram): yield swap(c,b2) 














while True: 
yield swap(random.choice (alphabet), random.choice (alphabet) ) 











我 们 一 起 来 看 看 它 的 效果 如 何 。 我 们 将 从 Robert Raynard 的 书 
(Secret Code Breaker》(Sith 和 Daniel; http: //secretcodebreaker.com) 


"Hil BC Hs BB OR Se IR SS © EST NA eS 








> >>msg='DSDRO XFIJV DIYSB ANQAL TAIMX VBDMB GASSA QRTRT CGGXJ 
MMTOC IPJSB AQPDR 
SDIMS DUAMB CQCMS AQDRS DMRJUN SBAGC IYTCY ASBCS MOXKS CICGX RSRCOQ 
ACOGA SJPAS 
AOHDI ASBAK GCDIS AWSJN CMDKB AOHAR RCYAE 
> decode subst (msg) 
'it is by knowing the frequency which letters usually occur and 
other distinctive 
characteristics of the language that crypt analysts are able to 
determine the 
plain text of a cipher message j' 


































































































解码 后 的 消息 ， 除 了 “crypt analyst* 本 应 该 是 一 个 单词 ， 其 他 都 是 正 
确 的 。《 这 个 词 不 在 我 们 的 词 库 中 ， 但 是 它 在 1300 亿 的 单词 库 中 ) 。 注 
意 最 后 一 个 字符 (加 密 文 本 的 “E”) 是 为 了 使 所 有 分 块 都 是 五 个 字母 一 
组 而 增加 的 。 

以 下 是 来 自 第 一 次 世界 大 战 时 德国 间谍 Baron August Schluga 的 真正 
的 密 文 : 



































> > >msg='NKDIF SERLJ MIBFK FKDLV NQIBR HLCJU KFTFL KSTEN YONDO 
NTTEB TTENM QLJFS 

NOSUM MLOTL CTENC QNKRE BTTBR HKLOT ELCBO OBSFS KLTML SSFAI NLKBR 
RLUKT LCJUK 

FTFLK FKSUC CFRFN KRYXPB' 

> >->decode subst (msg) 

'english complaining over lack of munitions they regret that the 
promised support of 

the french attack north of arras is not possible on account of 
munition insufficiency wa 
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以 下 是 在 1992 年 ， 半 国 国 家 安全 委员 会 (KB) 回 美国 前 中 央 情 报 局 
(CA) 主 席 Aldrich Ames 发 送 的 密 文 ，Aldrich Ames 在 1994 年 被 判 为 间 
DT 








> > >msg='CNLGV QVELH WTTAI LEHOT WEQVP CEBTQ FJNPP EDMFM LFCYF 
SOFSP NDHOF OEUTN 

PPTPP CTDON IFSOD TWHTN HHLFJ OLFSD HOFED HEGNO TWVNO HTNHH LFJWE 
BBITS PTHDT 

XQQFO EUTYF SLFJE DEFDN IFSQG NLNGN PCTTQ EDOED FGQFI TLXNI' 

> decode subst (msg) 

'march third week bridge with smile to pass info from you to us 
and to give 

assessment about new dead drop ground to indicate what dead drop 
will be used next 

to give your opinion about caracas meeting in october xab' 




















































































































以 下 是 在 1943 年 德国 的 U-Boat 命令 的 密 文 被 截获 并 且 被 解码 ， 从 而 
挽救 了 联合 战舰 护航 队 : 





msg-'WLJIU JYBRK PWFPF IJQSK PWRSS WEPTM MJRBS BJIRA BASPP IHBGP 
RWMWO SOPSV PPIMJ 
BISUF WIFOT HWBIS WBIOW FBJRB GPILP PXLPM SAJQO PMJQS RJASW LSBLW 
GBHMJ 

QSWIL PXWOL' 

> decode subst (msg) 

'a cony ov is headed northeast take up positions fifteen miles 
apart between point 

yd and bu maintain radio silence except for reports of tactical 
importance x abc' 


























































































































AERD Ja REPE A Y y RU X". DITA RS “conyov” NA E FR 
词 “convoy”， 因 此 “point yd” 应 该 是 “point vd”。 我 们 的 程序 从 未 考虑 到 
这 种 可 能 性 ， 因 为 正确 文本 的 三 元 字母 组 合 概率 比 这 里 结果 所 显示 的 要 
低 。 通 过 发 明 一 种 更 好 的 打分 函数 ， 它 不 会 陷于 局 部 最 优 中 ， 我 们 可 能 








可 以 解决 这 个 问题 。 或 者 我 们 可 以 增加 第 二 层次 的 爬山 搜索 : 通过 第 一 
次 搜索 生成 的 候选 项 ， 以 segment2 作 为 打分 函数 来 简单 搜索 。 我 们 将 把 
它 作 为 练习 留 给 读者 。 





拼写 纠正 





我 们 的 最 后 一 个 任务 是 拼写 纠正 : 给 定 一 个 输入 的 单词 w， 确 定单 
词 c 是 其 最 可 能 要 表达 的 单词 。 举 个 例子 ， 如 果 w 是 “acomodation”，c 应 
该 是 “accommodation”。〈 如 果 w 是 “the”*， 那 么 c 也 应 该 是 “the”。) 

根据 标准 的 方法 ， 我 们 想 要 选择 ce， 使 得 其 条 件 概 率 P(clw) 值 最 大 。 
但 是 如 何 定义 该 概率 却 不 简单 。 假 设 w=“thew”， 那 么 c 的 一 个 候选 项 
它 是 最 常见 的 单词 ， 我 们 可 以 想象 是 打字 员 的 手指 输 
入 “e” 后 不 小 心 按 到 “w”。 男 一 个 候选 项 是 “thaw” 一 一 一 个 较 常见 的 单词 
《虽然 出 现 概 率 比 “the” 低 3 万 倍 ) ， 而 且 用 一 个 原因 取代 另 一 个 很 党 
见 。 其 他 的 候选 项 包括 “thew” 本 喘 〈 表 示 肌 肉 或 者 肌 腿 的 模糊 术 
iB) ，“threw” 和 一 种 姓氏 “Thwe”。 我 们 应 该 选择 哪 一 种 ?看 起 来 我 们 
合并 了 两 种 因素 : c 本 身 的 概率 是 多 大 ? w 是 c 的 输入 错误 ， 或 者 是 拼 读 
错误 ， 或 者 是 其 他 某 种 形式 的 误 拼 ， 它 们 的 概率 有 多 大 ?有 人 可 能 会 认 
为 我 们 将 通过 某 种 特殊 (a hoc) 方 式 来 结合 这 些 因 素 ， 但 是 实际 上 存在 一 
个 数学 公式 一 一 贝 叶 斯 理论 一 一 精确 地 告诉 我 们 如 何 组 合 这 些 因素 来 找 
到 最 佳 的 候选 项 : 

argmaxc P(c|w) =argmaxc P(wlc) P(c) 

这 里 ，P(c) 表 示 c 是 期 望 的 结果 单词 的 概率 ， 称 为 语言 模型 ，P(wlc) 
表示 用 户 期 望 获取 c 会 输入 w 的 概率 ， 称 为 错误 模型 或 者 噪音 渠道 模型 。 
(其 想法 是 用 户 希 望 输 入 c， 但 是 由 于 一 些 噪音 或 静态 数据 ， 改 成 了 输 











是 “the” 




















Aw. ) 遗憾 的 是 ， 从 我 们 拥有 的 语 料 数据 来 看 ， 对 该 模型 进行 估计 并 
不 容易 一 一 语料库 没有 提供 信息 表示 哪些 单词 是 其 他 单词 的 拼写 错误 。 

我 们 可 以 通过 更 多 的 数据 来 解决 这 个 问题 : 一 个 错误 拼写 列表 。 
Roger Mitton 在 http: //www.dcs.bbk.ac.uk/— ROGER/corpora.html2E 4" T 
一 个 约 1 万 条 〈cw) 词 对 的 数据 语料库 。 但 是 我 们 不 能 只 是 从 该 数据 中 
得 找 P(w=thew|c=thaw); 各 只 有 4 万 条 例子 ， 那 么 看 到 相同 的 词 对 的 概率 
很 低 。 当 数据 很 稀疏 时 ， 需 要 对 它 进行 范 化 。 可 以 通过 忽略 相同 的 字 
母 、“th* 和 “w” 来 进行 范 化 ， 计 算 P(w=elc=a)， 即 期 望 输入 字母 “a” 却 输 
入 “e” 的 概率 。 由 于 存在 
如 “consistent/consistant” 和 “inseparable/inseperable” 这 样 的 错误 ， 把 “a” 误 
拼写 为 “e” 是 最 常见 的 一 种 单词 误 拼 。 

在 以 下 表 中 ， 我 们 考虑 当 w=thew 时 ，c 的 五 个 候选 项 。 其 中 一 个 是 
thew 本 身 ， 男 外 四 个 表示 我 们 将 要 考虑 的 四 种 单 步 编 辑 类 型 1) 删除 
字母 “thew” 中 的 “w”， 生 成 “the”。2) 插入 “r"， 得 到 “threw”。 以 上 两 种 
编辑 都 是 考虑 编辑 其 前 一 个 字母 。3) 用 "a” 蔡 换 *e”， 如 之 前 所 述 。4) 
对 两 个 相 邻 字母 交换 位 置 ， 把 “ew” 交 换 成 *we”。 我 们 称 这 些 单 步 编 辑 为 
编辑 距离 1， 需 要 两 步 编辑 的 候选 项 是 编辑 距离 2。 下 表 显 示 单 词 w 和 c， 
编辑 wlc， 概 率 P(wlc) ， 概 率 P(O， 以 及 二 者 概率 的 乘积 〈 为 了 可 读 性 
进行 了 扩展 ) 。 




















w c wie P(w | c) P(c) 10° P(w | c) P(c) 


thew | the ewle 0.000007 | 0.02 144, 144, 
thew | thew | | 0.95 | 0.00000009 | 90 
thew | thaw | ela | 0.001 | 0.0000007 | 0.7 
thew | threw | h | hr | 0.000008 | 0.000004 | 0.03 
thew | thwe | ew | we | 0.000003 | 0.00000004 | 0.0001 


从 表 中 可 以 看 出 , “the”" 是 最 可 能 的 纠正 结果 。P(O 可 以 和 Pw 一 起 计 
算 。 对 于 P(wlc〉， 我 们 需要 创建 一 个 新 的 函数 Pedit， 它 给 出 了 一 步 编 
辑 操作 的 概率 ， 从 拼写 错误 的 语料库 中 估计 出 来 。 举 个 例子 ， 可 以 计算 
Pedit C'ewle') =0.000007。 更 复杂 编辑 定义 成 单 步 编 辑 的 连接 。 例 如 ， 
为 了 把 “hallow” 转 换 成 hello”， 我 们 把 ale 编 辑 操作 和 owlo 编 辑 操作 连接 
起 来 ， 因 此 整个 编辑 被 称 为 aletow|o (或 者 owjotale， 在 这 种 情况 下 (但 
不 总 是 如 此 ) 是 相同 的 ) 。 复 杂 编 辑 的 概率 等 于 其 各 个 子 部 分 的 乘积 。 

存在 一 个 问题 ， 空 编辑 Pedit(") 的 概率 有 多 大 ? 也 就 是 说 ， 假 设 期 
望 的 单词 是 ce， 人 们 真 的 输入 c 而 不 是 其 中 某 种 错误 的 编辑 ? 这 依赖 于 打 
字 员 的 熟练 程度 以 及 是 否 有 检查 。 很 随意 地 ， 我 假定 每 20 个 单词 出 现 一 
次 拼写 错误 。 值 得 注意 的 是 ， 如 果 我 假定 每 50 个 单词 才 出 现 一 次 错误 ， 
那么 对 于 w=“thew”，P(wlc) 的 概率 为 0.98.， 而 不 是 0.95， 而 且 “thew” 将 
是 最 可 能 的 结果 。 

最 后 ， 我 们 可 以 展示 代码 了 。 该 代码 包含 两 个 高 层 函 数 correct 和 
corrections,correct 函 数 返 回 一 个 单词 的 最 佳 纠 正 ，corrections 函 数 把 
correct 应 用 到 文本 中 的 每 个 单词 ， 对 其 邻近 字符 不 做 改动 。 候 选项 是 所 
有 可 能 的 编辑 ， 而 最 佳 候 选项 是 有 最 高 的 P(wlc) P(O 分 值 的 候选 项 。 





























def corrections (text): 

"Spell-correct all words in text." 

return re.sub ('[a-zA-Z]-*', lambda m:correct (m.group (0) ), text) 

def correct (w): 

"Return the word that is the most likely spell correction of 
w."candidates-edits(w).items () 

c,edit=max (candidates, key=lambda(c,e) : Pedit(e)*Pw(c)) 

return c 

P(w|c) 是 通过 函数 Pedit 来 计算 的 : 

def Pedit (edit): 

"The probability of an edit; can be''or'aļb'or'aļb+c|d'." 
if edit--'': return (1.-p spell error) 

return p spell error*product(Pledit(e)for e in edit.split ('+') ) 

p spell error-1./20. 

Pledit=Pdist (datafile ('countledit') ) ##Probabilities of single 
edits 

































































候选 项 是 通过 编辑 生成 的 ， 即 传递 一 个 单词 ， 返 回 一 个 { 单 词 : 编 
辑 } 对 的 词典 dict 表 示 可 能 的 纠正 。 通 常 来 说 ， 可 能 对 于 一 个 纠正 存在 多 
种 编辑 。《〈 例 如 ， 我 们 通过 在 “e” 或 者 “1 后面 插 入 “2 后， 都 可 以 
把 “tel” 转 为 *tell”。) 我 们 选择 有 最 高 概率 的 编辑 。edits 是 我 们 目前 为 止 
最 复杂 的 函数 。 一 部 分 原因 是 该 函数 本 质 上 就 很 复杂 ， 生 成 4 种 编辑 很 
复杂 。 但 是 一 部 分 是 因为 我 们 采取 了 一 些 措施 使 得 该 函数 变 得 高 效 。 
(性 能 较 低 但 是 易于 读 取 的 一 个 版 本 在 http: //norvig.com/spell- 
correct.html. ) 如 果 我 们 考虑 所 有 的 编辑 ， 一 个 单词 
如 “accommodations” 可 以 生成 233166 个 候选 项 。 但 是 只 有 11 种 候选 项 可 
以 在 词汇 库 中 找到 。 因 此 ， 编 辑 是 通过 预计 算 词汇 库 中 所 有 单词 的 所 有 
前 缀 才能 工作 。 然 后 ， 它 递归 调用 edits， 把 单词 分 成 头 部 和 尾部 〈 代 码 
中 的 hd 和 t， 并 保证 头 部 总 是 在 前 绥 列 表 中 。 通 过 把 结果 添加 到 词典 库 
dict 中 进行 收集 : 





























def edits (word, d=2) : 

"Return a dict of{correct:edit}pairs within d edits of word." 
results-(] 

def editsR(hd,tl,d,edits): 

















h 上 




















def ed(L,R) : return edits+[R+!'|'+L] 

C=hdttl 

if C in Pw: 

e='+'.join (edits) 

if C not in results:results[C]=e 
else:results[C]=max(results[C], e,key-Pedit) 
if d<=0: return 








extensions-[hd*c for c in alphabet if hd*c in PREFIXES] 
p-(h[-1]if hd else'«') ##previous character 
##Insertion 

for h in extensions: 

editsR(h,tl,d-1, ed(pth[-1], p) D 


if not tl:return 































































































##Deletion 

editsR(hd,tl[1: ], d-1, ed(p,p+t1[0]) D 
for h in extensions: 

if h[-1]--t1[0]: ##Match 
editsR(h,tl[1: ], d,edits) 

else: ##Replacement 

editsR(h,tl[1: ], d-1, ed(h[-1], t1[0]) ) 
##Transpose 

if len(tl) >=2 and tl[0]! -tl[1]and hd+tl[1]Jin PREFIXES: 
editsR(hd+tl[1], tl1[0]-*t1l1[2: ], d-1; 

ed (tl1[1]+t1[0], tl[0: 2]) ) 





##Body of edits: 

editsR ('', word,d, []) 

return results 

PREFIXES-set(w[: i]for w in Pw for i in range (len (w)+1) ) 
































以 下 是 使 用 edits 函 数 的 一 个 例子 : 





>>>edits ('adiabatic', 2) 
{'adiabatic': '', 'diabetic': '<a|<+tale', 'diabatic': '<a|<"} 








以 下 是 正在 工作 的 拼写 纠正 器 : 





>>>correct ('vokabulary') 
'vocabulary' 
>> >correct ('embracable') 
'embraceable' 











>>>corrections ('thiss is a teyst of acommodations for 
korrections 
of mispellings of particuler wurds.') 
'this is a test of acommodations for corrections of mispellings 
of particular words.' 





























15 个 单词 中 有 13 个 处 理 结果 正确 ， 但 
是 “acommodations” 和 “mispellings” 处 理 结果 错误 。 为 什么 呢 ? 遗憾 的 
是 ， 网 络 上 充满 了 很 多 错误 的 拼写 。 错 误 的 单词 “mispellings” 在 语料库 
中 出 现 了 18543 次 ， 而 正确 的 单词 “misspellings” 只 出 现 了 50 万 次 ， 这 其 
中 的 差距 不 足以 带 来 用 一 次 编辑 蔡 换 无 编辑 。“thew” 出 现 了 96759 次 ， 
我 怀疑 其 中 绝 大 多 数 也 是 由 于 拼写 错误 。 

有 很 多 种 方式 可 以 改进 这 个 拼写 程序 。 首 先 ， 我 们 可 以 通过 上 下 文 
的 其 他 单词 来 纠正 这 个 单词 ， 因 此 “they're” 本 身 是 正确 的 ， 但 是 当 出 现 
在 “in they're words” 时 ， 就 会 被 纠正 为 "their"。 一 个 单词 二 元 模型 或 者 三 
元 模型 就 可 以 实现 它 。 

我 们 真 的 需要 清洗 语料库 中 的 拼写 错误 。 看 看 以 下 这 些 不 同 
的 “misspellings”: 








misspellings 432354 
mispellings 18543 
misspelings 10148 
mispelings 3937 























语料库 中 使 用 的 misspellings 一 词 ， 拼 写 错误 的 概率 达到 了 7%。 可 以 
有 三 种 方式 来 解决 这 个 问题 。 第 一 种 ， 我 们 可 以 获得 一 个 字典 单词 列 
表 ， 并 且 只 对 字典 中 的 单词 纠正 错误 。 但 是 字典 没有 列 出 最 新 发 明 的 单 





词 和 名 字 。《 一 种 折 中 方案 是 把 单词 变 成 小 写 放 到 字典 词汇 中 ， 但 是 多 
许 全 部 大 写 的 单词 不 在 字典 库 中 。) 第 二 种 ， 我 们 可 以 获得 一 个 已 经 仔 
细 校 验 过 的 语料库 ， 可 能 是 来 自 于 高 品质 的 出 版 社 的 书籍 和 期 刊 。 第 三 
种 ， 我 们 可 以 纠正 语料库 中 的 错误 。 在 使 用 语料库 进行 拼写 检查 之 前 ， 
先 对 语料库 拼写 检查 ， 这 看 起 来 就 像 是 “循环 论证 ”(crcular reasoning), 

但 是 可 以 实现 。 对 于 这 个 应 用 ， 我 们 把 编辑 距离 很 小 的 单词 聚 在 一 起 。 
针对 每 组 相似 单词 ， 我 们 检查 是 否 有 某 个 单词 的 出 现 频率 要 远 远 高 于 其 
他 单词 。 如 果 存 在 这 个 单词 ， 我 们 将 检查 二 元 模型 〈 或 者 三 元 模型 ) 计 
数 来 观察 这 两 个 单词 和 相 邻 的 单词 是 否 有 相似 的 分 布 。 例 如 ， 以 下 

是 “mispellings” 和 “misspellings” 的 四 个 二 元 文法 模型 计数 : 





















































mispellings allowed 99 
misspellings allowed 2410 
mispellings as 50 
misspellings as 749 
mispellings for 122 
misspellings for 11600 
mispellings of 7360 
misspellings of 16943 























这 两 个 单词 共享 很 多 相同 的 二 元 文法 相 邻 的 单词 ， 对 于 这 些 单词 组 
合 中 ， 总 是 “misspellings” 的 出 现 频 率 更 高 ， 因 此 很 有 可 
能 “mispellings” 是 拼写 错误 。 初 级 测试 表示 这 种 方法 效果 不 错 一 一 但 是 
存在 一 个 问题 : 它 需 要 CPU 计算 好 几 百 个 小 时 。 因 此 ， 这 种 方法 适合 于 
在 一 个 工作 组 上 执行 计算 ， 而 不 适合 于 单机 。 

这 种 数据 驱动 的 方法 与 更 传统 的 软件 开发 过 程 相 比 如 何 ? 对 于 后 











者 ， 程 序 员 在 编码 中 制定 了 一 些 显示 规则 。 为 了 回答 这 个 问题 ， 我 们 一 
起 来 看 ht: /Dig 项 目的 拼写 纠正 代码 ，Dig 是 一 款 优秀 的 开源 企业 内 网 

搜索 引擎 。 给 定 一 个 单词 ，ht: /Dig 项 目的 metaphone 算 法 可 以 生成 一 

个 关键 字 来 表示 这 个 词 的 发 声 。 举 个 例子 ，“tough” 和 “tuff” 都 映射 到 关 
键 字 “TF”， 因 此 可 以 作为 互相 拼写 错误 的 候选 。 以 下 是 对 于 字母 “G” 的 
metaphone 算 法 的 代码 : 














case'G': 
/* 

xF if in-GH and not B--GH,D--GH; 
*-H--GH, -H---GH else dropped if 




































































*-GNED, -GN, -DGE-, -DGI-, -DGY- 
*else J if in-GE-, -GI-, -GY-and 
*not GG else K 
Ty 
if C (Cr (n+1) ! ='G'| |vowel (* (n+2) ) ) && 

C* (n+1) ! ='N'|| C* (n+1) && 

(* (nt2) ! ='E']] 
* (n+3) ! ='D'D)) && 

(* (n-1) ! ='"D' |]! frontv C* (n+1) ) ) ) 
if(frontv (* (n+1) ) &&* (n+2) ! ='G') 
key<<'g'; 
else 
key<<'K'; 
else if (* (n+1) =='H'& &! noghf (* (n-3) ) && 
* (n-4) ! &e'H') 
key<<'F'; 
break; 





XX EUIS IE HEIE "TOUGH" HM “GH” BREN ASB”, [Hie zm 
把 <BOUGH” 中 的 “GH” 映 射 为 “FE”。 但 是 这 些 规 则 是 否 正确 地 捕获 了 所 
有 的 情况 ? “OUGHT WE? 或 者 “COUGH” 和 “HICCOUGH”? 我 们 可 以 编 
写 测 试 样 例 来 验证 代码 的 每 个 分 支 ， 但 是 即使 如 此 ， 我 们 还 是 无 法 知道 


哪些 方面 没有 和 履 盖 全 。 当 引入 新 的 单词 如 “iPhone”， 结 果 会 如 何 呢 ? 显 
然 ， 手工 制 定 的 规则 很 难 扩展 和 维护 。 数 据 驱 动 方法 的 很 大 优势 是 在 数 
据 中 包含 了 很 多 信息 ， 可 以 简单 地 通过 增加 更 多 的 数据 来 增加 新 的 知 
识 。 男 一 个 优点 是 ， 虽 然 数 据 是 海量 的 ， 但 代码 却 很 简洁 一 一 函数 
correct 只 包含 50 行 左右 的 代码 ， 而 ht， /Dig 的 拼写 代码 超过 1500 行 。 正 
如 伟大 的 Bill Gate 所 言 :“ 通 过 代码 行 数 来 衡量 编程 进展 正如 通过 重量 来 
衡量 飞机 建造 过 程 。”Gates 认 为 代码 行 数 是 一 种 负担 ， 而 不 是 财富 。 概 
率 性 的 数据 驱动 方法 是 敏捷 开发 的 终极 。 

该 算法 的 另 一 个 问题 是 可 移植 性 。 如 果 我 们 想 要 一 个 拉脱维亚 语 
(Ltvian) 的 拼写 纠正 器 ， 该 英语 metaphone 规 则 几乎 毫 无 用 处 。 把 数据 驱 
动 的 纠正 算法 移植 到 另 一 种 语言 上， 我 们 需要 的 是 一 个 大 的 拉脱维亚 语 
的 语料库 ， 而 不 需要 改动 代码 。 























其 他 任务 


以 下 是 通过 概率 性 语言 模型 处 理 的 一 些 其 他 任务 。 

语言 识别 

存在 web 协议 来 声明 网 页 的 编码 语言 。 实 际 上 至 少 存在 两 种 协议 ， 
一 种 在 HTML， 男 一 种 在 HTTP。 但 是 有 时 这 两 种 协议 不 一 致 ， 它 们 都 
不 表示 真实 的 信息 ， 因 此 搜索 引擎 在 搜集 了 一 些 已 知 语言 的 样本 页 面 
后 ， 通 常 通过 基于 实际 页 面 内 容 对 页 面 进行 分 类 。 任 务 是 写 一 个 这 样 的 
分 类 器 。 该 技术 的 前 沿 水 平 是 语言 识别 的 准确 率 超过 99%。 

垃圾 邮件 检测 和 其 他 分 类 任务 

据 估计 ， 每 天 发 送 的 垃圾 邮件 有 1000 亿 封 。 给 定 垃圾 邮件 和 非 垃圾 
邮件 两 个 语料库 ， 任 务 是 对 未 来 的 消息 进行 分 类 。 最 佳 的 垃圾 邮件 分 类 
器 包含 N 元 单词 模型 (包含 “10000000.00 will be released” 和 “our country 
Nigeria” 的 消息 很 可 能 是 垃圾 邮件 )〉 以 及 N 元 字符 模型 (“v1agra” 可 能 是 
垃圾 邮件 ) 等 特征 。 该 任务 的 前 沿 技术 是 通过 垃圾 邮件 拦截 方式 ， 其 准 
确 率 超 过 99%。 一 旦 你 可 以 对 文档 分 类 为 垃圾 邮件 / 非 垃圾 邮件 ， 那 么 你 
就 可 以 很 容易 地 进行 其 他 方式 的 分 类 ， 比 如 紧迫 / 非 紧 迫 邮 件 消息 ， 或 
者 对 新 闻 文 章 的 分 类 ， 如 政治 /商业 /体育 /其 他 ， 或 者 产品 反馈 的 分 类 
如 “喜欢 /一 般 / 不 喜欢 ”。 

作者 识别 (文体 学 Stylometry) 

语言 模型 已 经 被 用 于 识别 《Federalist Papers》、 莎 士 比 亚 的 诗 和 

















《对 经》 的 有 争议 的 作者 。 相 似 的 技术 还 被 用 于 退 踪 恐怖 组 织 ， 在 刑法 
中 ， 用 于 识别 和 找到 罪犯 。 该 领域 还 不 太 成 熟 ， 我 们 还 不 太 确 定 什 么 是 
最 佳 实践 ， 或 者 期 望 概率 是 多 少 ， 虽 然 2004 年 竞赛 的 胜出 者 的 准确 率 达 
到 71%。 竞 赛 的 最 佳 实践 在 语言 上 很 简单 ， 但 是 在 统计 上 非常 复杂 。 

记录 文档 重组 和 DNA 序 列 化 

在 Vernor Vinge 的 科幻 小 说 《Rainbows End) (Tr Books 出 版 ) ， 
Librareome 项 目 通 过 把 所 有 书籍 扔 到 树 碎 纸 机 、 对 碎 记 拍照 和 使 用 计算 
机 算法 重新 组 合 这 些 图 片 的 方式 数字 记录 整个 图 书馆 的 信息 。 在 实际 生 
活 中 ， 德 国政 府 的 E-Puzzler 项 目 正 在 重新 构建 4500 万 页 面 的 记录 文档 ， 
它们 被 民主 德国 秘密 警察 Stasis 所 破坏 。 这 两 个 项 目 都 依赖 复杂 的 计算 
机 视觉 技术 。 但 是 一 旦 把 图 像 转化 为 字符 ， 即 可 使 用 语言 模型 和 疏 山 算 
法 来 重新 组 合 那些 碎 上 请 。 可 以 采用 类 似 的 技术 来 解读 生命 之 语 : 人 类 基 
于 组 项 目 使 用 了 称 为 shotgun 序 列 化 技术 来 重新 组 合 DNA 碎 片 。 因 此 ， 
所 谓 的 “下 一 代 序 列 化 ”把 更 多 的 负担 从 Web 实 验 室 转移 到 大 规模 的 并 行 
重组 算法 。 

机 器 翻译 

G 公 司 的 N 元 语 料 是 由 机 器 翻译 组 的 研究 人 员 创建 的 。 把 外 语 (9 翻译 
成 英语 (e) 和 纠正 拼写 错误 的 单词 很 相似 。 最 佳 的 英语 翻译 建 模 如 下 : 

best=argmaxe P(elf) =argmaxe P(fle) P(e) 

其 中 ，P(e) 是 英语 的 语言 模型 ， 通 过 N 元 语法 模型 数据 进行 估计 ， 而 
P(fle) 是 翻译 模型 ， 通 过 双语 语料库 进行 学 习 : 在 双语 语料库 中 ， 一 对 
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句子 的 一 部 分 词 和 语义 解析 ， 但 是 结果 发 现 翻译 需要 的 绝 大 部 分 知识 来 
自 于 n 元 文法 模型 数据 。 


讨论 和 结论 


我 们 显示 了 软件 开发 方法 的 力量 ， 它 使 用 大 量 的 数据 来 解决 不 确定 
环境 中 提出 的 不 确定 问题 。 本 章 中 探讨 的 是 语言 数据 ， 但 是 很 多 相同 的 
经 验 也 适合 于 其 他 数据 。 

在 我 们 所 探索 的 样 例 中 ， 程 序 简洁 明了 ， 这 是 因为 使 用 的 概率 模型 
简单 。 这 些 样 例 模 型 忽略 了 人 类 所 知道 的 很 多 知识 一 一 显然 ， 
对 “choosespain.com” 进 行 分 段 ， 我 们 需要 了 解 很 多 关于 旅游 业 如 何 工作 
以 及 其 他 因素 的 专业 知识 ， 但 是 奇怪 的 结果 在 于 程序 不 需要 显 式 表示 所 
有 的 知识 ; 它 隐 式 地 从 N 元 语法 模型 中 获取 知识 ， 它 表示 其 他 人 选择 了 
探讨 的 方面 。 在 过 去 ， 概 率 模 型 更 复杂 ， 因 为 它们 依赖 于 更 少 的 数据 。 

需要 强调 的 是 ， 当 缺失 数据 时 的 统计 复杂 的 平滑 策略 。 既 然 有 非常 
大 的 语料库 ， 那 么 我 们 可 以 使 用 类 似 “ 蚌 春 回 退 ” 的 方法 ， 而 不 再 过 于 担 
心平 滑 模型 。 

我 们 在 本 章 研 究 的 程序 中 的 绝 大 多 数 复杂 性 是 由 于 搜索 策略 。 我 们 
看 到 了 三 类 搜索 策略 : 

穷 举 式 (Ehaustive) 

对 于 移 位 密码 ， 只 有 26 个 候选 项 ， 我 们 可 以 全 部 一 一 测试 它们 。 

保证 式 (Garanteed) 

对 于 分 段 策略 ， 存 在 2" 种 候选 方式 ， 但 是 很 多 方式 可 以 被 证 明 是 非 
最 优 的 (在 独立 假设 前 提 下 )〉 ， 不 需要 对 它们 进行 检查 。 

















启发 式 (Huristia) 

对 于 全 部 的 替换 密码 ， 我 们 无 法 保证 已 经 发 现 了 最 佳 的 候选 ， 但 是 
我 们 可 以 搜索 一 个 代表 子 集 ， 使 我 们 可 以 有 较 大 的 机 会 找到 最 佳 候选 。 
对 于 很 多 问题 ， 其 绝 大 部 分 工作 是 选择 正确 的 函数 进行 优化 ， 理 解 搜索 
空间 的 拓扑 ， 发 现 好 的 顺序 来 枚 举 相 邻 节点 。 

如 果 我 们 是 基于 大 量 的 数据 构建 模型 ， 那 么 就 需要 获取 “在 各 种 情况 
下 ”(i the wild) 可 能 的 数据 。N 元 文法 计数 具备 这 个 属性 : 我 们 可 以 很 容 
易 地 从 Web 中 收集 1 万 亿 条 自然 文本 数据 。 然 而 ， 标 签 化 的 拼写 纠正 不 
是 自然 产生 的 ， 因 此 我 们 在 这 些 数据 中 只 找到 了 4 万 个 。 两 种 最 成 功 的 
自然 语言 应 用 一 一 机 器 翻译 和 语言 识别 一 一 可 以 得 到 大 量 的 语 料 样 例 ， 
这 绝 非 偶然 。 相 反 ， 句 子 的 语义 解析 任务 依然 大 部 分 还 未 实现 ， 一 部 分 
是 由 于 在 解析 后 的 句子 中 不 存在 自然 存在 的 大 量 的 语料库 。 

值得 一 提 的 是 ， 我 们 的 概率 性 数据 驱动 模型 方法 一 一 最 大 化 了 所 有 
候选 项 的 概率 一 一 是 合理 的 数据 驱动 方法 的 一 个 特例 一 一 最 大 化 所 有 候 
选项 的 期 望 效益 。 举 个 例子 ， 合 理性 的 拼写 纠正 程序 需要 知道 存在 一 些 
禁忌 语 ， 而 当 用 户 并 不 想 使 用 这 些 禁 忌 语 时 ， 提 示 这 些 禁忌 语 会 给 用 户 
带 来 难堪 ， 其 负面 影响 比拼 写 一 个 错误 单词 要 严重 得 多 。 合 理性 的 程序 
会 考虑 一 个 单词 正确 或 错误 的 概率 ， 以 及 提示 每 个 单词 所 带 来 的 正面 或 
负面 价值 。 不 确定 问题 需要 在 校 验 和 测试 上 有 很 好 的 纪律 约束 。 为 了 评 
估 一 个 不 确定 问题 的 解决 方案 ， 人 们 需要 把 数据 分 为 三 个 集合 : 1) 训 
练 集合 ， 用 于 构建 概率 模型 。2) 校 验 集合 ， 开 发 人 员 用 于 评估 一 些 不 
































同 的 方法 ， 观 察 哪 一 种 方法 打分 更 高 ， 从 新 的 算法 中 获取 思想 。3) 测 
试 集合 ， 用 于 在 开发 介 素 时 准确 地 判断 该 算法 对 于 新 的 、 未 访问 的 数据 
效果 如 何 。 当 使 用 完 一 次 测试 集合 后 ， 理 想 情况 是 抛弃 该 集合 ， 正 如 一 
个 老师 不 能 给 一 个 班级 的 学 生 进 行 两 次 相同 的 测试 。 但 是 在 实践 中 ， 数 
据 很 昂贵 ， 而 且 在 通过 支付 方式 获取 新 数据 和 通过 某 种 不 会 导致 模型 过 
度 拟 合 数据 的 方式 重用 旧 数 据 之 间 存 在 一 个 折 中 。 注 意 对 独立 测试 集合 
的 需要 对 于 未 知 问题 本 身 是 固有 的 ， 而 不 是 和 选择 的 解决 方案 类 型 有 关 
一 一 即使 你 决定 通过 特定 规则 (a hoc rule) 而 不 是 概率 模型 的 方式 来 解决 
问题 ， 你 都 应 该 使 用 合适 的 测试 方法 。 
总 之 ， 由 于 网 络 上 可 以 获取 更 多 的 数据 ， 而 且 随 着 计算 能 力 的 提 

我 相信 概率 性 数据 驱动 方法 将 会 成 为 解决 未 知 领域 的 复杂 问题 的 主 


= 
Ip] ， 
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第 15 章 ”数据 中 的 生命 ，DNA 漫 谈 


MattWood 和 Ben Blackburne 

DNA 不 仅仅 是 组 成 生物 体 的 积木 ， 它 还 是 生物 体 化 学 组 成 的 数据 
库 。 这 个 数据 库 由 数 百 万 年 来 蔚 芭 众生 的 演化 所 设计 实现 ， 它 简 蛙 、 无 
模式 、 可 容错 。 在 过 去 的 20 年 中 ， 随 着 基因 手段 在 现代 生物 医学 研究 中 
所 占 的 比重 增 大 ， 生 物 学 家 的 研究 重点 也 开始 从 单个 基因 转移 到 整个 基 
因 组 上 。 最 近 几 年 来 ， 生 物 学 家 一 直 在 研究 如 何在 DNA 上 读 写 数据 。 本 
书 将 会 讲述 与 DNA 有 关 的 两 个 话题 。 其 一 ，DNA 本 里 也 是 一 种 对 数据 
进行 编码 、 数 字 化 存储 的 方式 ， 它 的 出 现 要 比 硬盘 早 得 多 。 其 二 是 一 个 
与 之 相关 的 故事 ， 测 定 DNA 中 的 数据 并 确定 其 含义 的 海 大 工程 。 





用 DNA 存 储 数 据 


基因 组 是 生命 体 的 数据 库 。 它 由 DNA 分 子 写成 ， 其 副本 存储 在 人 体 
的 每 一 个 细胞 中 《只 有 少数 例外 ) 。 这 种 模式 在 自然 界 中 普遍 存在 ， 即 
使 是 最 简单 的 生命 形式 也 不 例外 。 基 因 组 中 编码 的 信息 包含 制造 重 白 质 
的 指令 ， 而 这 些 梨 白质 组 成 的 分 子 机 器 则 运行 着 细胞 内 的 化 学 系统 。 这 
就 是 为 什么 我 认为 DNA 是 可 容错 、 风 余 的 存储 形式 。 

你 号 体 里 的 几乎 每 一 个 细胞 中 都 有 一 个 数据 中 心 ， 数 据 中 心里 存储 
独 这 些 基 因数 据 库 。 我 们 称 这 个 数据 中 心 为 细胞 核 ， 细 胞 核 中 又 含有 染 
色 体 。 所 有 的 人 都 是 双 倍 体 ， 你 也 不 例外 。 你 的 每 一 个 染色 体 都 由 两 个 
副本 构成 ， 分 别 来 自 于 你 的 父亲 和 你 的 母亲 。 除 了 普通 的 染色 体 之 外 ， 
人 类 还 有 性 染色 体 。 女 性 有 两 条 X 染 色 体 ， 男 性 有 一 条 X 和 一 条 Y 染 色 
体 。 这 些 基因 数据 存储 库 的 基本 存储 单元 是 DNA 双 链 ， 两 条 链 通 过 神奇 
FY We oe A SE TE — E. 15-1 Pw» 

















A 15-1: DNA 中 的 一 个 小 片段 ， 由 POV-Ray 软 件 从 PDB 文件 1BNA 
ÆR, doi: 10.2210/pdblbna/pdb ( 见 彩 图 51) 

DNA 的 每 条 链 都 是 由 一 串 碱 其 构成 的 。DNA 中 含有 四 种 碱 基 一 一 脲 
HS SES, RE. ARE CHR oT AAS NAL G. C. T2 。 
基因 数据 库 正 是 编码 存 于 这 个 四 元 体系 中 。 在 人 体 中 ，DNA 含 有 




















3G (3x10?) 个 碱 基 ， 分 布 在 两 个 稍 有 不 同 的 副本 中 。 

DNA 生 RNA,RNA 生 蛋白 质 

DNA 到 底 是 用 来 做 什么 的 ? 人 类 基因 组 中 的 大 部 分 似乎 并 没有 直接 
的 作用 ， 尽 管 它们 可 能 有 一 些 潜 在 用 途 。 基 因 组 中 的 2% 构 成 基因 ， 基 
因 的 序列 决定 了 有 蛋白质 的 构造 。DNA 是 由 四 进 制 编码 写成 的 大 分 子 ， 同 
样 ， 和 蛋白 质 是 由 二 十 进 制 编码 写成 的 稍 小 的 分 子 。 组 成 蛋白 质 的 序列 编 
码 确定 了 蛋白质 的 形状 ， 而 蛋白 质 的 形状 和 化 学 结构 又 决定 了 其 在 细胞 
的 分 子 机 器 中 担当 哪 一 个 齿轮 的 角色 。 

和 其 他 文件 格式 一 样 ， 读 取 和 显示 DNA 序 列 中 所 编码 的 信息 也 需要 
特殊 的 读 取 装置 。 和 其 他 种 类 的 文件 不 一 样 的 是 ， 这 个 装置 是 在 纳米 尺 
度 下 在 活 细胞 中 工作 的 ， 它 根据 基因 中 碱 基 的 排列 ， 按 照 一 定 的 顺序 碍 
找 各 个 分 子 。RNA 是 DNA 的 短命 表 兄 ， 它 有 一 个 类 似 四 进 制 代码 的 系 
统 。 当 一 个 基因 被 激活 时 ， 蛋 白质 分 子 机 器 系统 会 在 RNA 中 生成 该 基因 
的 副本 。 这 些 RNA 副 本 被 转移 到 蛋白 质 机 器 中 翻译 成 重 白质 ， 每 个 
RNA 分 子 都 能 用 作 许 多 和 蛋白质 分 子 的 模板 。 

如 此 看 来 ，DNA 和 香 白 质 形成 了 一 种 伙伴 关系 : 蛋白 质 提供 机 器 装 
置 ， 在 基因 中 的 碱 基 序列 指导 下 制造 新 的 香 白 质 。 虽 然 DNA 被 认为 
是 “生命 的 蓝图 ”， 但 它 也 只 能 在 细胞 中 分 子 〈 尤 其 是 蛋白 质 ) 已 经 存在 
的 情况 下 发 挥 作用 。 

通过 控制 负责 激活 基因 的 蛋白 质 的 产生 ， 细 胞 可 以 用 产生 蛋白 质 的 
方式 对 刺激 物 或 者 其 他 需要 作出 反应 。 通 过 这 些 机 制 ， 其 他 细胞 可 以 通 














过 发 送信 号 分 子 〈 比 如 激素 )〉 来 控制 条 个 细胞 。 许 多 药物 也 通过 这 些 机 
制 产 生 作用 。 
每 一 个 基因 都 由 其 周围 控制 堡 白质 产生 的 序列 做 了 标记 〈 见 图 15- 
。 基 因 组 中 编码 的 一 些 重 白 质 可 以 选择 性 地 用 于 这 些 标记 。 一 些 重 
白质 会 促进 基因 的 表达 ， 而 妃 外 一 些 则 会 阻止 该 基因 的 表达 。 





增强 子 启动 子 ”基因 

图 152: 图 示 为 一 个 DNA 片 段 ， 其 中 包含 一 个 基因 ， 以 及 基因 周 
围 用 来 和 细胞 调控 机 制 相互 作用 来 限制 基因 表达 的 区 域 。 这 里 基因 由 一 
个 启动 子 和 一 个 增强 子 引 导 ， 这 样 基因 就 被 做 了 标记 ， 使 得 细胞 知道 何 
时 应 当 表 达 该 基因 ( 见 彩 图 52) 

使 用 药物 Hack 你 的 DNA 数 据 

让 我 们 来 幻想 一 下 : O'Reilly 要 在 “Hacks” 系 列 图 书 中 增加 一 本 
《DNA Hacks》 一 一 其 中 包含 100 种 方式 来 修改 、 重 构 或 者 增强 你 的 基 
因数 据 库 。 那 么 这 些 Hack 方 式 的 一 半 差 不 多 都 通过 阻 断 或 者 激励 某 一 类 
和 蛋白质 的 活动 来 进行 ， 这 类 蛋白 质 被 称 作 G 和 蛋白 偶 联 受 体 〈G-protein 
coupled receptors,GPCR)J。 例 如 ， 肯 酸 分 泌 由 体内 信号 作用 于 一 个 特殊 
的 GPCR 来 激发 。 当 信号 分 子 触 及 GPCR 时 ， 将 会 发 生 一 系列 的 相互 作 
用 ， 以 至 会 “打开 ?或 “关闭 ”你 的 DNA 中 的 基因 。 例 如 用 来 治疗 胃 溃 疡 和 
胃痛 的 雷 尼 替 十， 通过 在 信号 和 GPCR 之 间 横 插 一 脚 来 阻 断 信 号 ， 从 而 
发 挥 作用 。 和 在 Email 客户 端 中 使 用 智能 的 hack 来 过 滤 垃 圾 邮件 一 样 








《比如 过 滤 包 含 *V1Agr4” 的 消息 ) ， 雷 尼 蔡 丁 就 是 一 个 智能 的 hack， 人 
们 通过 它 来 阻止 传递 “请 分 泌 更 多 骨 酸 ”信息 的 信号 穿 过 细胞 屏障 。 

还 有 一 种 形式 的 DNA 元 数据 (mtadata) 值 得 一 提 。 尽 管 基因 组 通常 情 
况 下 被 看 做 一 个 只 读数 据 库 ， 但 是 DNA 可 以 因为 环境 因素 被 化 学 修改 ， 
导致 某 些 基因 被 抑制 。 这 些 化 学 变化 并 不 改变 基因 自身 的 编码 ， 而 是 通 
过 提供 附加 的 注释 使 得 细胞 机 器 不 再 容易 转录 该 基因 。 研 究 这 些 化 学 修 
改 的 学 科 叫 做 表 观 遗传 学 。 对 于 这 些 修改 在 身体 组 成 中 所 扮演 角色 的 研 
究 现 在 仍旧 处 于 初级 阶段 。 不 过 目前 已 知 的 是 ， 一 些 表 观 遗 传 学 变化 会 
关 掉 在 某 个 特定 细胞 中 不 需要 的 基因 (肌肉 细胞 需要 的 基因 和 肝脏 细胞 
并 不 相同 )。 基 因 可 以 因为 环境 因素 而 被 关 掉 一 一 这 似乎 毫 无 疑问 地 会 
在 幻想 中 的 《DNA Hacks》 一 书 的 未 来 版 本 中 出 现 ， 这 确实 让 人 激动 不 
己 。 例 如 ， 生 长 素 基 因 可 以 因为 饥饿 而 被 关 掉 。 更 有 趣 的 是 ， 这 些 变化 
可 能 会 遗传 给 孩子 ， 换 句 话 说 ， 我 们 的 生活 方式 产生 的 变化 可 以 影响 到 
下 一 代 的 基因 ， 这 在 以 前 被 认为 是 天 方 夜 谭 。 

癌症 

癌症 是 一 种 由 于 细胞 增生 失控 而 产生 的 疾病 。 一 个 细胞 的 生长 和 位 
置 是 由 它 的 基因 控制 的 ， 也 就 是 说 ， 它 只 会 以 可 控 的 方式 分 裂 。 除 此 之 
外 ， 人 类 基因 组 中 包含 了 很 多 肿瘤 抑制 基因 ， 它 们 可 以 在 细胞 不 受 控 增 
生 的 时 候 使 细胞 消亡 。 那 么 癌症 是 怎么 发 生 的 呢 ? 答案 就 在 数据 库 损坏 
中 。 化 学 致癌 物 〈 比 如 香烟 中 的 ) 、 辐 射 和 病毒 都 能 够 使 你 的 DNA 产 生 
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当 计算 机 硬盘 磁 到 小 损坏 的 时 候 ， 你 可 能 注意 不 到 有 什么 不 同 。 不 
过 当 一 定数 量 的 损坏 不 断 积 累 ， 程 序 就 会 开始 骨 尝 ， 文 件 就 打 不 开 了 。 
基因 组 同样 如 此 。 损 坏 足 够 多 之 后 ， 基 因 的 控制 会 产生 紊乱 ， 导 致 不 正 
常 表达 的 发 生 。 如 果 你 能 触及 正确 的 基因 ， 那 么 细胞 会 开始 向 它 自己 发 
送 生长 和 分 裂 的 信号 。 其 他 的 基因 《比如 肿瘤 抑制 基因 ) 可 以 被 完全 关 
闭 ， 一 旦 如 此 ， 你 便 在 一 步 步 走向 癌症 。 

当然 ， 硬 盘 在 大 多 数 情况 下 是 可 靠 的 。 大 多 数 硬 盘 中 都 有 专门 的 系 
统 来 检测 和 重 映射 坏 道 。 硬 盘 中 也 包含 了 检测 磁盘 损伤 并 通知 用 户 的 系 
统 〈 比 如 SMART 监控 ) 。 为 了 获得 额外 的 可 靠 性 ， 你 可 以 通过 RAID1 
阵列 来 将 两 个 硬盘 相互 镜像 。 这 样 ， 两 个 硬盘 的 内 容 是 相同 的 ， 如 果 一 
个 硬盘 出 现 错误 ， 另 一 个 硬盘 便 可 以 替代 它 并 恢复 数据 。 细 胞 自 喘 也 有 
检测 和 修复 DNA 损 伤 的 机 制 。 让 我 们 来 回忆 一 下 ，DNA 分 子 以 双 螺 旋 
的 形式 存在 ， 一 条 链 上 的 碱 基 与 另 一 条 链 上 的 对 应 碱 基 互 补 配对 。 如 果 
一 条 链 发 生 损 伤 ， 它 可 以 通过 另 一 条 链 作为 模板 进行 修复 《〈 类 似 硬 盘 的 
RAID1 方 式 ) 。 对 于 更 大 损伤 的 修复 ， 还 可 以 采用 其 他 机 制 。 

如 果 损 伤 不 能 修复 ， 肿 瘤 凋 亡 基因 就 会 启动 ， 阻 止 细胞 分 裂 并 最 终 
导致 细胞 程序 性 死亡 。 在 理想 的 情况 下 ，DNA 受 到 损伤 的 细胞 可 以 得 到 
修复 ， 类 似 硬盘 的 SMART 机 制 。 涉 足 过 计算 机 集群 (比方 说 5000 个 硬 
盘 的 规模 ) 的 人 都 会 知道 硬盘 故障 是 多 么 的 频 发 。 想 想 人 体内 有 100 万 
亿 个 细胞 ， 他 们 大 概 会 奇怪 为 什么 剖 症 的 发 病 率 会 比较 低 。 

复制 


























前 文中 已 经 说 到 ，DNA 是 由 缠绕 在 一 起 的 两 条 链 构 成 的 。 两 条 链 是 
互补 的 ， DNA 的 四 种 碱 基 都 有 对 应 的 互补 碱 基 〈A 和 G 互 补 ，C 和 T 互 
补 ) ， 互 补 碱 基 出 现在 互补 链 的 相同 位 置 。 沃 森 和 克 里 克 器 在 他 们 揭示 
DNA 结 构 的 论文 中 有 一 段 著名 的 论述 :“ 我 们 注意 到 我 们 的 碱 基 互补 配 
对 假说 直接 给 出 了 一 种 可 行 的 基因 物质 复制 机 制 。” 

每 一 个 DNA 链 部 可 以 用 作 男 一 个 链 的 模板 ， 用 以 复制 DNA 双 螺旋 。 
细胞 可 以 分 离 两 条 链 ， 将 他 们 分 别 作 为 模板 ， 用 互补 碱 基 制造 新 链 。 在 
细胞 分 型 为 两 个 新 细胞 时 ， 上 述 过 程 就 会 发 生 《〈 见 图 15-3) 。 











DNA 复 制 
G»2C 
T»-A 
图 153 使 用 两 个 原始 DNA 链 (白色) 作为 模板 制造 两 个 新 链 
(黑色 ) 的 DNA 复 制 过程 ， 产 生 了 两 个 新 的 双 螺 旋 分 子 〈 照 片 来 自 
http: //genome.gov/glossaty.cfm) 
破解 基因 编码 


假设 未 来 文明 出 土 了 一 块 21 世 纪 的 人 硬盘。 即使 未 来 人 能 够 理解 文件 


系统 (如 前 所 述 ) ， 文 本 文件 在 硬盘 上 最 终 还 是 以 二 进 制 形式 储存 的 。 
如 果 没 有 将 7bit 数 据 转 换 为 一 个 字母 的 7bit ASCII 码 表 ， 信 息 就 会 无 法 解 
BE. 

1961, mE E sU RU Te TUS T SE SS ADL) A R33 8] RE 
ASCII 将 二 进 制 转换 为 90 个 左右 的 字符 ， 每 个 字符 必需 7 个 比特 ， 即 
2“=128《 实 际 上 还 有 一 位 用 于 奇偶 校 验 ) 。 在 DNA 中 ， 四 进 制 的 碱 基 代 
码 需要 编码 21 个 字母 〈20 个 氨基 酸 和 1 个 终止 信号 ) ， 那 么 每 个 字符 就 


需要 3 个 碱 基 (43-64) ( 见 表 15-1) 。 
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举例 来 说 ， 三 个 碱 基 ACT 编 码 了 办 氨 酸 。 当 翻译 机 絮 在 基因 中 过 到 
ACT 三 联 密码 子 时 ， 就 会 问 制 造 中 的 重 白 质 分 子 插入 一 个 苏 氮 酸 。 我 们 
可 以 注意 到 ， 密 码 子 的 数量 (64〉 比 信号 (20 个 氨基 酸 和 一 个 终止 信 





号 ) BS. MRSS A AEC AR AL tll RE A) AE E 
由 不 止 一 个 密码 子 编码 。 

实际 上 ， 对 大 多 数 密码 子 来 说 ， 最 后 一 个 碱 基 对 编码 没有 影响 或 者 
影响 很 小 。 这 使 得 碱 基 突 变 〈 碱 基 的 变化 ， 比 如 A 变 为 T) 对 蛋白 质 造 
影响 的 可 能 性 变 得 尽 可 能 低 ， 也 就 保护 了 蛋白质 结构 免 受 可 能 的 碱 基 
损伤 影响 。 

人 类 基因 组 在 有 意外 错误 并 入 的 情况 下 已 经 成 长 了 几 十 亿 年 。 因 
此 ， 基 因 组 中 充满 了 没有 作用 功能 的 元 素 以 及 那些 作用 功能 不 明确 的 元 
素 。 昌 然 “ 垃 圾 DNA” 这 个 说 法 现在 已 经 不 再 流行 了 ， 但 是 不 可 否认 的 
是 ，DNA 中 大 量 信息 的 存在 仅仅 是 因为 将 它们 移出 基因 组 的 选择 性 压力 
太 小 了 或 者 根本 不 存在 。 

有 些 元 素 可 以 自行 在 基因 组 中 复制 、 粘 贴 。 例 如 ，Alu 元 素 ， 一 个 大 
约 有 300 个 碱 基 的 碎片 ， 其 中 包含 的 信息 可 以 它 自 己 复制 为 RNA 一 种 
寿命 短 一 些 的 类 DNA 分 子 ) ， 然 后 在 其 他 位 置 重新 复制 进入 基因 组 。 这 
样 的 结果 就 好 像 让 库 布 里 克 (Sanley Kubrick) (The Shining》 中 的 人 物 
杰克 和 你 一 起 写本 书 ， 书 中 写 着 “只 工作 ， 不 玩 机 ， 联 明 杰 元 也 变 
傻 "54。Alu 元 素 占 到 了 人 类 基因 组 的 10%。 简 单 生命 体 基因 组 的 大 小 限 
制 了 这 些 元 素 的 增殖 ， 人 类 基因 组 中 这 些 元 素 的 存在 也 就 使 得 人 类 基因 
组 更 为 深奥 难 懂 了 。 

DNA 作 为 数字 化 存储 

进化 的 力量 塑造 了 基因 组 。 但 在 达尔 文 提出 进化 论 的 时 候 ， 他 知道 
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会 一 般 ， 那 么 “高 ?和 * 矮 ”的 遗传 信息 会 不 可 逆 地 混合 在 一 起 。 有 性 繁殖 
会 让 一 个 物种 达到 平均 水 平 ， 但 事实 上 ， 正 如 和 达尔 文 同一 时 代 的 孟 德 
尔 抽 所 发 现 的 ， 基 因 并 没有 不 可 逆 地 混合 在 一 起 。 

原因 在 于 DNA 的 数字 化 本 质 。 中 等 个 头 的 子 代 会 有 来 自 父 亲 和 母 亲 
各 一 套 基因 拷贝 。 基 因 并 没有 混合 在 一 起 ， 举 例 来 说 ， 序 列 中 没有 任何 
-点 有 半 A 半 T 的 状态 。 所 以 信息 并 没有 丢失 ， 并 且 可 以 原样 传递 给 孙 
代 。 复 杂 的 生命 得 以 进化 并 存在 ， 这 就 是 由 DNA 所 实现 的 数字 化 储存 。 

进化 作为 算法 

我 们 知道 创造 细胞 中 DNA 的 基本 算法 是 : 进化 。DNA 序 列 因 变异 而 
变化 。 那 么 进化 是 如 何 塑造 DNA? 令 人 吃惊 的 是 ， 进 化 (以 两 代 间 
DNA 序 列 变化 定义 ) 的 大 部 分 是 选择 中 性 的 ， 即 进化 对 生命 体 没有 任何 
影响 。 为 什么 是 这 样 ? 很 明显 ， 在 小 种 群 中 这 种 变化 的 发 生 有 机 会 以 后 
在 种 群 中 占 支 配 地 位 。 对 大 一 些 的 种 群 来 说 ， 这 种 变化 占 支 配 地 位 的 可 
能 性 较 小 ， 但 是 这 种 变化 的 数量 会 相应 增加 一 一 所 以 最 终 中 性 进化 仍然 
i5 As 

这 对 解释 个 体 间 与 物种 间 的 差异 很 重要 。 中 性 进化 是 两 个 基因 组 之 
间 任 意 不 同 的 空 模型 nll model)。 这 意味 着 ， 为 了 证 明 两 个 物种 的 相同 
基因 中 存在 的 差异 是 有 意义 的 ， 科 学 家 们 一 直 想 证 明 中 性 进化 的 “ 算 
法 ”无 法 生成 两 个 序列 。 而 这 需要 估算 变化 的 比率 ， 并 确定 其 是 否 会 快 
于 或 慢 于 中 性 理论 所 预计 的 速度 。 如 果 产 生 了 多 于 预计 的 变化 ， 则 可 能 




















是 由 于 这 些 变化 已 经 为 组 织 提 供 了 功能 上 的 改进 ， 并 且 这 些 变化 已 在 种 
群 中 迅速 蔓延 。 如 果 变 化 比 所 预计 的 要 慢 ， 那 么 基因 可 能 足够 重要 ， 使 
得 绝 大 部 分 变化 不 再 是 中 性 的 ， 然 后 被 进化 所 拒绝 。 

人 类 参考 基因 组 品目 前 被 看 做 表示 不 同人 混合 的 线性 字符 串 ， 物 种 
内 的 巨 量 差异 意味 着 人 类 参考 基因 组 可 以 更 适当 的 被 看 做 包含 了 种 群 内 
不 同 的 图 (Gaph)。 一 个 个 体 的 基因 组 可 以 被 表示 为 参考 图 的 一 个 遍历 。 

[1] Bp E383. - 杜威， 沃 森 (Jmes D.Watson) 与 佛 朗 西 斯 : 克 里 克 (Fancis 
Crick)， 此 二 人 因 发 现 DNA 分 子 双 螺旋 结构 于 1962 年 获得 诺 贝 尔 生理 学 
或 医学 奖 。 

四 悉尼 - 布 伦 纳 (Sdney Brenner)， 南 非 生 物 学 家 ，2002 年 诺 贝 尔 生 理 
学 或 医学 奖 获得 者 。 

[3] “All work and no play makes Jack a dull boy.” Æ «The Shining? 中 的 








原文 。 

MEF- 孟 德 尔 (Gegoft Mendel)， 奥 地 利 遗 传 学 家 ， 遗 传 学 的 黄 基 
人 。 他 通过 豌豆 杂交 实验 ， 提 出 了 遗传 因子 〈 现 称 基 因 ) 及 显 性 性 状 、 
隐 性 性 状 等 重要 概念 ， 并 阐明 其 遗传 规律 ， 后 人 称 之 为 孟 德 尔 定律 。 

[5|Reference Human Genome， 即 人 类 基因 组 计划 所 测序 的 基因 组 


DNA 作 为 数据 源 


用 编程 语言 来 说 ，DNA 就 是 一 个 字符 串 : 

char (3*10^6) human genome; 

人 类 的 完整 基因 信息 由 30 亿 字符 组 成 ， 即 使 在 最 没 效 率 的 自制 编程 
语言 中 也 可 以 很 轻松 地 处 理 。 但 是 确定 这 30 亿 个 碱 基 的 确切 顺序 需要 化 
生物 信息 学 和 实验 室 过 程 的 通力 合作 ， 当 然 还 需要 很 多 旋转 的 磁 
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人 类 基因 组 计划 第 一 次 将 目标 设 定 为 对 所 有 这 些 字符 进行 测序 。 全 
世界 很 多 大 型 、 高 产 的 研究 所 都 将 学 术 竞 争 放 到 一 边 ， 着 手 这 项 可 能 持 
续 13 年 花费 数 十 亿美 元 的 任务 。 他 们 的 目标 是 制作 出 一 个 健壮 、 精 确 的 
人 类 基因 组 图 谱 ， 并 向 所 有 人 人 免费 发 布 。 英 国 、 美 国 和 日 本 的 科学 家 联 
合 组 织 已 于 2001 年 2 月 在 科学 文献 上 成 功 发 表 了 第 一 个 人 类 基因 组 草 
图 。 如 果 不 算 附 加 注解 和 相关 数据 ， 基 因 组 本 身 有 10Gb 的 数据 量 ， 这 
在 没有 iPod 或 者 U 盘 的 时 代 是 相当 大 的 。 然 而 ， 随 着 数据 在 世界 各 地 的 
分 发 拷贝 ， 对 储存 空间 的 要 求 以 指数 形式 增长 ， 因 此 整体 的 数据 要 大 得 
多 。 科 学 家 着 手 分 析 数 据 ， 将 其 用 作 基 因 标 记 与 疾病 指标 的 来 源 ， 并 将 
其 与 其 他 来 自 老鼠 、 酵 母 菌 、 病 菌 的 基因 组 对 比 。 这 10G 数 据 已 经 构成 
了 现代 生物 研究 的 基础 。 

现在 将 时 间 快 进 到 2008 年 。 人 类 基因 组 已 经 得 到 了 很 好 的 注释 
(htp: //ensembl.org)， 包 括 老 咎 、 黑 猩猩 、 胸 嘴 兽 在 内 的 其 他 四 十 多 个 
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室 中 Sanger 研 究 所 的 IT 专家 、 信 息 学 家 和 科学 家 正在 一 起 开会 讨论 DNA 
测序 的 下 个 时 代 。 

若干 互相 竞争 的 测序 技术 平台 已 经 给 出 了 数字 ， 并 都 期 待 着 去 探索 
基因 信息 的 非 富 余 本 质 。 与 已 经 被 最 初 的 人 类 基因 测序 测 出 的 碱 基 对 里 
的 长 读 序 列 不 同 ， 这 些 短 读 序列 将 只 有 30 一 50 个 碱 基 ， 而 前 者 则 数 以 二 
计 。 但 这 30 一 50 个 碱 基 足以 在 特定 的 染色 体 上 的 特定 位 置 进行 读 取 ， 而 
这 在 多 达 30 亿 字符 中 有 很 高 的 确定 性 。 数 以 百 万 计 的 碱 基 迅 速 使 得 在 毛 
细 血 管状 的 基因 序列 中 计算 单个 Kb 变 得 逊色 不 堪 ， 因 为 短 读 序 列 的 数 
据 要 求 的 细节 已 经 十 分 明了 。 白 板 上 填 满 了 手写 的 图 解 过 程 ， 那 些 过 程 
正 是 运用 了 交 光 碱 基 的 图 像 ， 用 来 确定 这 些 DNA 短 片段 的 正确 序列 。 

人 们 已 经 讨论 过 了 要 支持 研究 所 的 科研 目标 所 需 的 仪器 通 量 指标 及 
仪器 数量 。 白 板 上 的 一 个 数字 与 其 他 数字 相 比 ， 更 加 引起 了 人 们 的 注 
意 。 在 以 后 六 个 月 中 ，Sanger 研 究 所 将 会 测序 出 50Tb 的 最 新 数据 ， 是 每 
星期 50Tb。 

SVE HB. 
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时 也 拥有 可 供 分 析 和 注解 数据 的 专用 的 现成 硬件 ， 但 是 整个 生物 学 界 也 
从 未 处 理 过 具有 如 此 原始 信息 的 数据 。 

新 的 测序 平台 将 会 大 大 地 超越 Sanger 研 究 所 现 有 的 大 规模 数据 需 
求 。 也 就 是 说 ， 数 据 需求 已 经 在 Sanger 研 究 所 15 年 的 历史 中 飞速 星 指数 
































增长 ， 最 终 达 到 了 由 17000 个 在 线 人 硬盘 驱动 的 PB 级 储存 系统 。 在 未 来 12 
一 18 个 月 内 ， 新 的 测序 技术 会 产生 相当 于 这 15 年 总 和 的 数据 。 

果不其然 ， 测 序 仪 占 在 基因 园区 里 掀起 了 新 一 波 的 浪潮 ，6 个 月 后 ， 
那 场 会 议 的 我 静 补 工业 史上 最 大 规模 信息 设施 打破 了 ， 有 服务 器 农场 、 
存储 阵列 、 软 件 、 数 据 库 和 信息 管理 工具 。 

量 的 飞跃 

新 技术 在 基因 测序 中 产生 了 量 的 飞跃 。 上 一 代 的 仪器 需要 大 量 设备 
来 产生 1Mb 的 可 用 序列 。 测 序 一 个 单一 的 基因 组 束 要 人 花费 好 多 年 并 且 寓 
Hie. 

测序 一 个 基因 组 在 比 对 不 同 物种 的 基因 组 时 是 很 有 用 的 。DNA 序 列 
中 有 生物 学 意义 的 部 分 在 进化 历史 中 保持 不 变 ， 而 且 找 出 这 些 不 变 的 区 
域 可 以 帮助 生物 学 家 识别 新 基因 ， 新 基因 则 可 能 在 疾病 中 扮演 茶 种 角 
f&. 

由 于 单个 Kb 的 测序 很 少 是 完全 精确 的 ， 在 统计 学 效能 上 ， 对 同一 碱 
基 进 行 多 个 相互 独立 的 测序 是 有 切实 好 处 的 ， 不 过 这 样 就 需要 大 规模 的 
部 著 仪 器 。 不 过 新 一 代 的 短 该 测序 仪器 每 次 运行 都 会 读 取 同 一 碱 基 儿 百 
万 次 ， 可 以 为 结果 基因 组 提供 额外 的 解析 度 ， 这 对 比较 基因 组 很 重要 。 

有 了 这 个 额外 的 解析 度 ， 短 读 测 厅 方法 第 一 次 使 得 构建 大 量 个 人 基 
因 组 成 为 可 能 ， 从 而 提供 了 个 人 基因 组 数据 库 的 洞察 力 。 将 这 些 基因 组 
进行 比较 ， 可 以 帮助 识别 出 为 什么 有 些 人 比 别 人 有 更 大 的 风险 患 高 血压 
或 者 乳腺 瘤 。 基 因 序 列 中 很 少 一 些 碱 基 的 差异 就 能 改变 这 些 易 患 病 基因 



































体质 ， 从 一 个 单独 的 碱 基 (sngle nucleotide polymorphisms,SNP) 到 重复 单 
元 集合 (cllections of repeating units,CNV)，30 亿 碱 基 中 的 这 些小 变化 正 是 
很 多 疾病 状态 的 关键 。 通 过 比 对 短 读 技术 获取 的 几 百 万 份 拷贝 DNA 字 符 
串 中 茶 些 特定 位 置 的 碱 基 ， 就 可 以 肯定 两 个 体 碱 基 差 异 是 测序 错误 引起 
还 是 真 的 有 微小 的 核酸 变化 。 通 过 病例 和 其 他 的 研究 进行 额外 的 注解 就 
可 以 知道 这 些 变化 是 不 是 和 疾病 有 关 。 

全 是 碱 基 

这 种 基因 测序 平台 的 技术 实现 值得 讨论 一 下 。 从 本 质 上 来 说 它 是 线 
性 组 装 流水 线 ， 其 中 每 个 DNA 都 是 原材料 ， 计 量 后 在 测序 仪器 中 准备 参 
与 光化学 反应 。 将 DNA 剪 切 为 数 以 百 万 计 的 短片 段 后 ， 再 将 其 复制 几 百 
万 次 ， 然 后 附着 在 一 种 特殊 制备 的 玻璃 片上 。 带 有 特殊 标记 的 碱 基 会 堆 
积 在 这 些 制 备 好 的 短片 短 上 ， 并 配对 在 互补 碱 基 上 : A 对 T,C 对 G。 用 激 
光照 射 时 这 些 碱 基 会 发 出 不 同 波长 的 菊 光 ， 然 后 就 可 以 拍 到 含有 几 千 个 
点 的 图 像 ， 每 一 个 点 都 是 一 簇 发光 的 DNA 碱 基 ( 见 图 15-4) 。 此 时 对 测 
序 平台 的 要 求 就 以 乘法 方式 增长 了 。 每 张 图 像 都 只 是 百 万 像素 的 解析 
度 ， 采 用 短 读 测序 时 每 个 碱 基 要 拍 四 张 图 像 〈 每 个 位 置 的 每 个 碱 基 一 
张 ) 。 这 也 仅仅 是 148 张 图 像 。 

不 过 ， 每 张 图 像 都 只 只 能 覆盖 DNA 秘 的 一 部 分 。DNA 会 分 成 330 个 
单独 的 块 进行 拍照 〈48840 张 图 像 ) ， 然 后 是 8 条 线 〈390720 张 图 像 ) 。 
通常 情况 下 ，DNA 链 是 由 正 向 和 逆向 双 癌 测序 (781440 张 图 像 》》。 同 时 
还 有 测序 运行 是 由 激光 强度 和 射流 测量 产生 的 元 数据 。 
































一 台 仪 器 每 天 可 以 总 计 可 以 产生 1Tb 数 据 。 

这 些 数 据 传 给 图 像 分 析 软 件 ， 软 件 将 基于 灾 光 强度 通过 校准 每 一 系 
列 的 图 像 确定 碱 基 顺 序 。 这 样 义 生成 的 文件 含有 各 个 字符 串 ， 质 量 评分 
和 严 光 强度 详细 信息 ， 同 时 附带 了 秘 位 置 和 其 他 相关 的 元 数据 。 实 际 
上 ， 为 了 方便 下 游 的 分 析 ， 这 些 信息 是 写成 两 种 文件 格式 的 :fastq 和 
SRF， 一 种 被 全 世界 同事 采用 的 数据 格式 。 





图 15-4: Ilumina"'GA2m) FAR, HPA) AA HAKFNDNAD 
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图 像 分 辨 率 与 读 取 长 度 的 简单 增加 对 数据 处 理 和 分 析 有 着 巨大 的 影 
啊 。Sanger 研 究 所 新 测序 平台 的 最 初版 本 可 以 进行 每 次 36 个 碱 基 的 短 
读 。100 个 碱 基 对 的 读 取 长 度 〈 比 如 Sanger 研 究 所 研发 实验 室 里 运行 着 
的 原型 机 ) 就 会 导致 图 像 数目 变 成 三 倍 〈2334320 张 图 像 ) 。 在 拥有 40 
台 仪器 的 一 个 平台 中 《你 读 到 本 文 的 时 候 可 能 已 经 不 止 这 么 多 了 ) ， 
个 平台 的 每 台 仪 器 总 共 会 产生 9300 万 张 图 像 ， 每 次 运行 大 约 持续 一 
期 ， 总 计 每 周 会 产生 75Tb 的 数据 。 

数据 是 怎么 处 理 的 ? 

[1|Wellcome Trust Genome Campus, 位 于 剑桥 南部 的 Hinxton， Æ 
Sanget 研 究 所 和 欧洲 生物 信息 学 研究 所 的 所 在 地 。 


[2]Iliumina 是 一 家 提供 DNA 测 序 仪 器 解决 方案 的 公司 。 
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大 规模 的 部 署 测序 仪器 对 很 多 方面 是 不 可 或 缺 的 ， 比 如 基因 数据 集 
建设 ， 支 持 诸如 千 人 基因 组 计划 叫 和 国际 癌症 基因 组 协会 加 这 样 的 大 规 
模 、 全 基因 组 关联 研究 ， 这 对 今后 20 年 的 生物 研究 有 着 巨大 的 价值 。 世 
界 各 地 的 大 型 基因 中 心 令 人 钦佩 地 接受 了 这 个 挑战 。 拿 Sanger 研 究 所 来 
说 ， 有 超过 35 个 Ilumina GA2 基 因 组 分 析 器 ， 运 行 在 位 于 英国 剑桥 以 南 
10 英 里 处 Hinxton 基 因 园区 的 高 通 量 设施 中 。 

Sanger 研 究 所 的 测序 平台 

测序 平台 是 Sanger 研 究 所 的 核心 服务 ， 对 所 有 Sanger 研 究 所 或 其 他 合 
作 机 构 进 行 的 基因 组 研究 开放 。 由 于 测序 对 设备 的 要 求 极 高 ， 同 时 ， 
Sanger 研 究 所 也 开发 了 一 系列 操作 工具 与 流程 来 满足 这 种 高 要 求 。 

项 目 管理 

我 们 开发 了 名 为 Sequencescape 的 一 些 列 项 目 管理 工具 集 ， 可 以 帮助 
研究 者 计划 自己 的 实验 ， 并 帮助 测序 设备 管理 者 计划 容量 和 吞吐 量 。 
Sequencescape 最 初 是 被 内 部 小 组 开发 维护 的 。 它 用 Rails 语 言 编写 ， 运 行 
在 标准 的 刀片 服务 器 上 ， 采 用 MySOL， 通 过 内 部 网 络 
(htp: /www.sanger.ac.uk/) 供用 户 访问 。 

当 一 个 新 项 目 需 要 测序 时 (可 以 是 单一 样品 的 单 次 运行 ， 也 可 以 是 
1G 碱 基 位 上 万 样品 的 数 干 次 运行 )， 就 在 Sequencescape 上 登记 ， 附 带 
提供 一 些 相 关 的 元 数据 ， 例 如 科学 理由 、 预 算 信息 和 联系 方式 。 
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备 。 这 个 请 求 组 成 了 测序 平台 工作 的 基本 单位 ， 物 理 DNA 样 本 则 被 送 交 
实验 室 小 组 来 进行 准备 和 测序 。 

准备 测序 样本 是 一 个 复杂 的 手动 过 程 ， 其 中 包括 一 个 不 断 提 纯 的 实 
验 室 流程 。 物 理 DNA 样 本 在 手动 仪器 、 目 动机 器 和 计算 机 控制 组 件 间 ， 
甚至 不 同 实验 室 之 间 ， 从 一 个 试管 中 移 到 妃 一 个 中 。 记 录 一 个 样品 
的 “生命 故事 ”是 很 关键 的 ， 在 评析 测 友 结果 、 实 验 室 否 吐 量 以 及 确定 实 
验 流程 组 件 的 错误 调 校 或 故障 时 ， 这 些 元 数据 可 以 导入 进来 。 样 本 中 的 
DNA SOAR TH ADEE ATA, MASI HEME: EP 2H en ot FF AEH 
元 长 的 问题 。 通 过 评估 和 分 析 元 数据 ， 可 以 在 失败 中 看 到 共同 性 ， 找 出 
通讯 协议 偶 短 、 误 运转 的 堪 械 或 者 错误 调 校 。 在 不 懈 的 监测 和 评析 中 ， 
实验 室 进程 得 以 继续 提供 高 质量 DNA 样 本 以 供 测序 。 

生物 实验 过 程 ， 用 俏皮 的 生物 术语 来 说 ， 是 一 个 持续 进化 的 过 程 。 
随 着 科学 期 刊 或 者 会 议 中 新 方法 的 讨论 发 布 ， 优 化 、 更 新 、 采 用 全 新 方 
法 ， 或 者 是 彻 抵 推倒 重 做 都 是 很 常见 的 。 新 仪 副 和 机 器 目 动 化 引进 使 
用 。 在 实验 室 工作 流 这 种 高 灵活 度 领域 中 ， 保 持 健壮 的 原始 数据 获取 是 
极其 困难 的 。 它 也 很 快 在 高 吞吐 量 环境 下 变 得 不 可 实现 ， 在 这 个 环境 
中 ， 即 使 很 小 低 效 或 者 停滞 也 会 导致 长 久 的 事物 堆积 。 

毋庸 置疑 的 是 ， 基 因 测 序 中 病人 个 体 的 基因 材料 也 许 有 限 、 供 应 不 
足 ， 或 者 保存 期 限 短 。 制 备 好 的 竺 测序 DNA 也 不 能 永久 保存 ， 而 且 对 于 
不 能 再 次 获得 的 DNA， 实 验 过 程 或 测序 的 延迟 将 会 带 来 灾难 性 的 后 果 。 
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之 间 的 矛盾 ， 现 代 的 数据 获取 方法 必 不 可 少 : 我 们 不 想 看 到 软件 成 为 工 
作 流 程 中 的 限制 步骤 。 

灵活 的 数据 获取 

传统 的 数据 库 重 构 ， 都 是 对 数据 模式 (dta schema) 进 行 增 、 删 或 者 重 
命名 ， 然 而 Sanger 研 究 所 的 高 通 量 生 产 线 使 用 的 数据 建 模 工具 集 却 允许 
在 运行 时 改变 数据 描述 。 当 一 个 实验 室 协 议 升 级 ， 包 括 一 系列 新 仪器 或 
者 快速 方法 时 ， 与 任务 相关 的 现 有 原始 信息 可 以 在 运行 时 重 构 。 如 此 帮 
助 实验 室 更 有 效率 地 运作 ， 减 轻 开 发 者 时 间 负 担 ， 还 使 得 数据 集 可 以 与 
当前 实验 室 流程 保持 一 致 。 

对 大 多 数 部 分 来 说 ， 生 产 系统 中 运行 的 数据 库 仍然 是 传统 型 的 ， 存 
在 于 诸如 项 目 、 样 品 和 工作 流 、 任 务 这 样 关键 协议 组 件 的 真实 世界 对 象 
中 。 不 过 ， 元 数据 也 被 定 为 主要 对 象 ， ee 值 和 
族 (Fmily) 对 象 类 。 一 个 族 可 以 有 多 个 描述 符 ， 描 述 符 提供 数据 字段 的 定 
义 ， 包 括 名 称 、 类 型 、UI 元 素 和 是 否 为 必须 字段 ， 等 等 。 每 一 个 工作 流 
都 可 以 有 效 继承 一 个 族 的 字段 。 

这 就 允许 我 们 快速 定义 和 修订 新 类 型 的 项 目 、 样 本 和 工作 流 任务 。 

所 有 的 数据 项 页 面 的 UI 都 是 使 用 这 些 信息 动态 生成 的 ， 用 以 监测 测 
序 平台 和 实验 工作 流通 量 的 多 个 报告 工具 也 是 一 样 动态 生成 的 。 族 有 版 
本 控制 ， 这 就 使 得 老 项 目 数据 可 以 持续 访问 ， 同 时 也 有 迁移 和 校对 工具 
将 旧版 本 对 象 升级 为 新 版 本 。 
































从 计算 角度 来 看 ， 这 个 过 程 比 我 们 预想 的 要 快 。 借 助 数据 表 中 足够 
的 索引 和 数据 范式 化 ， 即 使 高 通 量 系统 高 负荷 运行 时 Web 应 用 程序 也 能 
迅速 反应 。 由 于 茶 些 属性 是 牢 牢 固定 在 工作 流 中 的 〈 比 如， 每 个 物品 都 
有 名 称 、 唯 一 标识 符 ， 以 及 创建 和 修改 日 期 ) ， 他 们 可 以 很 容易 地 重 构 
回 主要 数据 库 字 段 以 提供 更 快速 的 碍 询 。 

这 项 对 于 实验 室 工 作 流 数据 模型 进行 精简 的 答 试 己 经 取得 了 很 大 的 
成 功 。 优 势 越 来 越 明 显 ， 因 为 灵活 度 的 优化 可 以 让 相同 的 构架 应 用 于 研 
究 所 内 其 他 实验 室 工作 流 中 (首先 用 在 了 基因 型 鉴定 中 ) ， 而 只 需要 很 
少 的 额外 开发 。Sequencescape 项 目 管理 和 实验 室 信息 管理 工具 是 开源 
的 ， 可 以 从 http: //www.sanger.ac.uk F 2X. 

仪器 和 数据 管理 

在 Sanger， 整 个 短 读 测序 流程 当做 了 一 系列 托管 服务 来 运行 ， 和 Web 
服务 定义 的 界面 有 通用 性 。 项 目 管理 和 实验 室 信 息 管 理 最 终 让 位 于 仪器 
管理 工具 ， 此 工具 可 以 监管 、 控 制 整 个 仪器 平台 ， 并 尽 可 能 地 实现 自动 
运转 。 

每 台 测序 仪器 都 连接 着 一 台 PC， 电 脑 用 来 控制 仪器 并 给 仪器 产生 图 
像 数 据 提供 临时 存储 空间 。 遗 憾 的 是 ， 尤 其 是 对 长 一 点 的 测序 来 说 ， 本 
地 机 器 的 磁盘 空间 会 迅速 变 得 不 够 存储 整个 运行 的 数据 ， 而 且 架 面 PC 
的 计算 能 力 不 足 以 进行 数据 的 图 像 、 序 列 与 质量 分 析 。 

因此 ， 数 据 通过 一 个 10G b 线 路 从 仪器 上 连接 的 P C 传 输 到 更 大 的 存 
储 阵列 中 : 由 Lustre 管理 的 400Tb 大 的 EVA 存 储 系 统 中 。 这 便 是 一 个 























1000 节 点 的 网 络 集群 ， 此 集群 承担 了 原始 图 像 的 主要 分 析 和 图 像 校准 任 
务 。 管 理 这 个 规模 存储 系统 问题 很 多 ， 需 要 管理 员 不 断 干 预 ， 供 应 丙 不 
断 扩 展 还 有 内 部 数据 管理 者 的 监管 。 这 个 阵列 处 理 了 差不多 4 个 星期 的 
数据 ， 随 着 分 析 和 最 终 的 碱 基 识 别 ， 仪 器 中 的 原始 数据 相关 的 仪器 运行 
细节 《油光 强度 、 菊 光 数 据 等 ) 在 删除 之 前 都 按 需 进行 了 校对 并 存档 。 

这 种 规模 的 原始 测序 数据 很 大 ， 处 理 费 用 很 高 ， 不 过 ， 图 像 校准 、 
序列 上 个 各 个 碱 基 确定 之 后 ， 每 次 运行 产生 大 约 30Gb 序 列 和 质量 数 
据 。 如 果 原 始 数据 没有 备份 〈 从 磁 市 上 恢复 数据 需 3 个 月 ) ， 每 一 个 测 
序 运行 的 原始 图 像 压缩 成 低 质 量 的 JPEG 文 件 ， 保 存在 数据 库 中 。 尽 管 
不 适合 分 析 ， 如 果 任 何 一 次 运行 都 需要 人 工 判读 来 确定 是 图 像 问题 或 者 
人 工 制品 ( 油 ， 不 太 好 的 DNA 集 群 ， 其 至 指纹 都 不 稀奇 )， 这 个 数据 仍 
是 有 用 的 。 

一 旦 测序 数据 可 用 ， 它 会 以 两 种 格式 被 存储 到 一 个 高 性 能 的 Oracle 数 
据 库 里 。 昌 然 生 产 系统 充分 利用 了 数据 库 ， 但 是 生物 信息 学 工具 通常 会 
在 文件 系统 上 用 普通 文件 工作 。 我 们 确实 需要 迎合 所 有 的 需求 ， 这 个 存 
档 里 大 量 序列 信息 也 同样 通过 一 个 Fusel 人 1 用 户 空间 文件 系统 呈现 给 
Sangery 研 究 所 内 的 计算 农场 。 

这 项 措施 出 人 意料 的 好 。 序 列 数据 紧 接 着 通过 一 系列 的 质量 控制 措 
施 传送 出 去 ， 然 后 在 序列 分 析 集 群 上 运行 ， 检 查 低 测 序 产 出 、 高 层次 的 
未 知 碱 基 ， 或 者 低 复杂 序列 ， 而 所 有 的 这 些 都 是 测序 错误 的 标志 。 质 量 
控制 (Q) 结 果 又 被 传 回 到 Sequencescape， 研 究 者 和 合作 者 会 收 到 有 关 新 





























数据 及 其 在 Fuse 资 料 系统 位 置 的 提醒 。 在 测序 结果 并 不 具有 足够 质量 ， 
或 者 如 果实 验 室 存 在 问题 的 情况 下 ，Sequencescape 会 自动 排队 样本 进行 
再 处 理 。 

对 Sanger 研 究 所 的 许多 项 目 来 说 ， 得 到 许可 之 后 ， 数 据 会 对 所 有 人 
开放 : 从 最 初 的 项 目 和 样本 元 数据 ， 到 实验 室 的 原始 信息 ， 以 及 从 每 个 
样本 中 获得 上 百 万 测序 数据 。 这 些 材料 任何 感 兴趣 的 人 都 可 以 免费 下 
载 ， 包 括 最 新 的 基因 数据 草图 (htp: //www.ensembl.org/index.html), $ 
个 测序 追踪 结果 (htp: //trace.ensembl.org/) ， 随 后 几 个 月 ， 还 会 有 更 多 
的 项 目的 短 读 序列 (请 关注 http: //www.ebi.ac.uk)。 这 就 为 生物 医学 研 
究 者 提供 了 优秀 的 资源 ， 同 时 ， 也 继续 了 为 人 类 基因 组 计划 提供 免费 开 
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[1] 即 1000 Genomes Project， 此 计划 将 测定 世界 各 地 至 少 1000 个 人 类 





个 体 DNA 序 列 ， 参 见 http: //1000genomes.org. 

[2] Bp International Cancer Genome Consortium, AJL 
http: //1000genomes.org. 

DB]Lustte 是 一 种 分 布 式 文件 系统 ， 参 见 http: //lustre.org/. 
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DNA 的 未 来 


这 些 新 的 测序 技术 和 数据 作为 使 用 它们 的 工程 的 一 部 分 正在 为 现代 
生物 学 的 下 一 个 篇 章 建 造 基石 。 运 用 此 数据 的 管理 工具 、 校 对 工具 和 分 
析 工 具 将 会 继续 进化 ， 因 而 花费 稍微 长 一 些 的 时 间 关 注 DNA 的 未 来 ， 是 
十 分 有 价值 的 。 

如 何 成 为 基因 黑客 

与 其 他 数据 密集 型 领域 相 比 ， 基 因 具 有 更 加 伟大 的 提供 开放 在 线 数 
据 仓 库 的 历史 一 一 从 种 类 多 样 的 基因 浏览 和 注解 工具 (例如 Enesembl 和 
UCSC)， 一 直到 和 基因 有 关 的 疾病 (HpMap,SNPedia) 细 节 ， 例 如 23andMe 
和 Navigenics 的 私有 化 的 基因 服务 。 这 里 有 足够 丰富 的 资源 以 供 任何 人 
日 后 成 为 一 个 基因 黑客 。 

下 下 

目前 ， 这 种 公司 仅仅 提供 对 基因 感 兴趣 的 几 点 高 层 抽 象 。 但 是 创新 
一 如 既往 地 伴随 下 一 代 测 序 仪 器 和 基因 分 析 器 的 发 展 而 前 进 着 。 像 
Pacific Biometrics 和 Oxford Nanopore 这 样 的 公司 正在 致力 于 可 以 使 目前 
的 兆 碱 基 (mgabase) 级 的 读 取 转换 成 干 兆 级 (ggabase)， 甚 至 更 大 。 随 着 否 
吐 量 的 提高 ， 相 关 费 用 会 下 降 ， 成 本 为 $5000， 甚 至 是 $1000 的 基因 测 
序 ， 对 治疗 学 基因 测序 来 说 ， 这 些 已 经 变 得 很 经 济 有 效 ， 并 离 我 们 越 来 
越 近 。 

大 数据 时 代 




















DEN EB PER. Bae Dae tata: 数据 需求 正在 急 
剧 上 升 。 大 数据 时 代 对 于 基因 来 说 已 经 到 来 ， 这 对 于 现代 生物 研究 也 是 
一 样 。 数 据 将 继续 提供 极其 巨大 的 约束 分 析 和 研究 ， 而 且 ， 很 明显 ， 越 
来 越 多 的 研究 和 医院 队伍 进行 内 部 基因 测序 ， 大 基因 中 心 的 角色 将 会 有 
所 改变 。 为 成 千 上 万 的 基因 提供 一 个 灵活 的 计算 平台 ， 有 效率 的 序列 搜 
寻 、 排 列 和 汇编 工具 ， 加 上 安全 的 环境 ， 将 会 变 得 至 关 重 要 。 这 也 会 为 
它们 带 来 搁 术 实现 上 的 问题 ， 比 如 隐私 以 及 效率 ， 所 有 这 些 都 将 会 在 当 
今生 物 医 学 的 舞台 上 成 为 焦点 话题 。 

尽管 这 些 阻碍 也 许 会 带 来 一 些 地 平 线 上 的 未 知 云 团 ， 但 DNA 的 未 来 
必定 光明 无 限 。 
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天 于 真实 数据 的 问题 


要 在 真实 世界 中 搜集 “数据 之 美 ?， 并 将 其 展示 给 感 兴 趣 的 公众 ， 至 
少 有 两 个 问题 需要 解决 。 第 一 个 问题 : TAPAS EMR. FERS BU 
况 下 ， 重 复 搜集 同一 块 数据 两 次 会 得 到 不 同 的 结果 。 这 和 是 因为 搜集 过 程 
不 可 能 完全 无 误 莽 。 温 度 、 压 力 、 湿 度 、 动 力 源 、 水 或 试剂 的 质量 、 称 
量 精度 的 波动 ， 还 有 人 类 的 误差 都 会 使 < 正确 ”结果 变 得 模糊 。 实 验 测 量 
的 艺术 在 于 如 何 设计 数据 搜集 过 程 ， 使 随机 误差 与 操作 错误 对 结果 的 影 
啊 最 小 化 。 在 最 好 的 情况 下 ， 这 涉及 如 何 精确 优化 实验 设计 ， 检 测 误差 
的 大 小 及 来 源 。 在 最 差 的 情况 下 ， 人 们 就 只 有 不 断 重 复 实验 ， 直 到 得 到 
他 们 满意 的 结果 为 止 。 

对 于 处 理 误差 导致 的 不 确定 性 ， 传 统 实验 的 做 法 是 进行 重复 实验 并 
将 结果 付 庄 统 计 分 析 。 重 复 的 例子 可 以 在 大 多 数 科 学 期 刊 的 大 多 数 文章 
中 找到 ， 很 多 图 表 中 有 “上 典型 结果 如 上 所 示 ”。 “典型 结果 ”一 般 意 味 
着 “我 们 获得 的 最 好 数据 集 *。 尽 管理 论 上 详细 的 统计 分 析 是 一 种 更 严密 
的 方法 ， 但 是 也 可 能 存在 争议 并 让 人 误解 。 医 学 期 刊 的 评论 页 中 常常 对 
从 分 析 中 删除 不 相关 数据 的 适当 方法 产生 争议。 之 所 以 对 “典型 "结果 产 
生 怀 疑 ， 对 统计 方法 怀 有 争论， 是 由 于 无 法 接触 原始 数据 。 如 果 底 层 数 
据 可 得 ， 人 们 目 己 便 可 很 简单 地 进行 分 机 和 检查 。 虽 然 争 议 似乎 不 会 因 
此 减少 ， 但 是 至 少 人 们 可 以 更 加 知情 。 

这 个 问题 的 第 二 部 分 是 ， 一 直到 最 近 ， 印 刷 期 刊 的 版 面 限制 了 可 发 























表 的 数据 总 量 ， 如 此 ， 便 使 得 支撑 论文 论点 的 完整 数据 及 数据 分 析 的 发 
布 变 得 困难 或 者 根本 不 可 能 。 然 而 ， 在 出 版 开始 逐渐 转向 线 上 的 当今 世 
界 ， 这 个 理由 变 得 牵强 了 。 起 码 在 数据 量 处 于 KB 级 至 GB 级 的 研究 中 ， 
将 论点 所 依赖 的 完整 数据 集 发 布 出 来 是 可 能 的 。 因 此 一 直 有 很 高 的 呼声 
来 要 求 发 布 完整 的 数据 。 不 过 ， 这 样 就 产生 了 如 何 呈 现 数据 的 问题 ， 数 
据 可 能 不 一 致 ， 也 可 能 包含 错误 ， 但 是 起 码 可 以 显示 出 所 得 结论 的 总 体 
描述 。 简 单 地 说 ， 问 题 就 是 : 如 何 清 晰 地 展示 出 隐藏 在 数据 表面 下 的 美 
丽 ， 同 时 又 可 以 不 刻意 避免 或 者 隐藏 数据 表面 的 瑕 症 。 

我 们 认为 要 成 功 调和 这 些 相互 矛盾 的 要 求 ， 关 键 在 于 透明 。 以 尽 可 
能 全 面 的 方式 提供 原始 数据 ， 并 处 理 和 筛选 数据 的 完整 描述 ， 意 味 着 任 
何 用 户 都 可 以 深度 挖掘 到 他 或 者 她 需要 的 细节 。 原 始 数据 通常 很 难 或 者 
不 可 能 自然 而 然 地 以 一 种 机 器 可 读 、 可 处 理 的 形式 发 布 ， 所 以 筛选 和 提 
取 过 程 同 时 也 包含 了 对 分 类 和 简化 的 决策 ， 从 而 提供 清楚 明了 的 数据 以 
作 其 他 用 途 。 这 里 描述 了 我 们 在 “美化 ”一 系列 开放 来 源 趾 数据 时 所 采取 
的 方法 ， 以 一 种 开放 的 形式 筛选 和 发 布 数据 ， 人 允许 任何 人 将 其 收 为 已 
用 。 结 果 表 明 ， 以 上 描述 的 方法 已 经 使 得 多 个 研究 人 员 能 够 配备 一 系列 
可 视 化 和 分 析 的 工具 ， 创 建 一 个 协作 网 络 来 有 效 地 分 析 结 果 、 提 议 后 续 
实验 ， 并 将 结果 发 布 给 更 广大 的 读者 群 ， 而 这 上 皆 是 传统 研究 通信 所 不 允 
许 的 。 

[1 开放 来 源 即 crowdsource， 指 的 是 一 种 任何 人 都 可 以 提交 数据 和 参 
与 各 项 任务 ， 也 可 译作 “ 众 包 ” 
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作为 Jean-Claude Bradley 教 授 所 指导 的 一 个 药物 发 现 研究 大 计划 
(Badley 2007) 的 一 部 分 ， 我 们 希望 预测 各 种 各 样 的 化 合 物 在 非 水 溶剂 
(比如 乙醇 、 甲 醇 等 ) 中 的 溶解 度 。Bradley 研 究 组 用 来 合成 潜在 抗 症 疾 
目标 化 合 物 (Badley 等 2008〉 所 用 的 Ugi 反 应 主要 成 分 有 本 类 、 凑 酸 、 异 
青 和 基本 和 氨基酸， 这 些 物质 的 溶解 度 是 最 让 人 感 兴趣 的 。 化 合 物 的 溶解 
度 是 化 合 物 可 在 菜 个 特定 溶剂 中 浴 解 的 数量 。 构 建 并 验证 一 个 可 以 预测 
溶解 度 的 模型 需要 大 量 溶解 度数 据 。 出 人 意料 的 是 ， 世 界 上 并 没有 唾 手 
可 得 的 非 水 溶剂 溶剂 度数 据 。 因 此 我 们 选择 开放 数据 来 源 ， 将 数据 测量 
开放 给 想 要 参与 的 任何 人 (htp: //onschallenge.wikispaces.com/) 。 不 过 
这 样 就 产生 了 一 系列 问题 。 由 于 任何 人 都 可 以 提交 测量 值 ， 我 们 没有 直 
接 的 方法 来 检查 测量 值 的 质量 。 

因此 创建 数据 集 的 第 一 阶段 需要 创建 如 何 测量 每 一 个 数据 的 详细 记 
录 。 不 同 页 献 数 据 的 测量 技术 、 精 度 和 准 度 都 不 一 样 ， 但 是 所 有 的 背景 
资料 都 以 人 类 可 读 形 式 提 供 。 这 种 将 完整 研究 记录 在 实验 完成 时 就 发 布 
出 来 的 “彻底 分 享 ” 方 式 称 为 开放 记录 本 科学 
(htp: //en.wikipedia.org/wiki/Open_Notebook_Science)。 这 种 方式 虽然 在 
专业 研究 者 中 并 不 普遍 ， 但 是 它 很 符合 我 们 公开 一 个 完整 和 透明 的 数据 
集 的 愿望 。 我 们 利用 在 Wikispaces 托 管 的 
wiki(http: /onschallenge.wikispaces.com) 来 保存 实验 记录 ， 利 用 诸如 

















Gdoc 和 和 Flickr(http: //flickr.com) 等 其 他 服务 来 保存 数据 ( 见 图 16-1〉。 
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图 16-1: 使 用 免费 通用 服务 来 托管 实验 工作 记录 及 处 理 过 的 数 
Heo A) 单个 实验 测量 时 期 的 一 部 分 ; B) Flickr 上 实验 中 所 拍照 片 ; C) 
托管 在 Gdoc 上 主要 数据 仓库 的 一 部 分 〈 见 彩 图 53) 

从 实验 描述 中 提取 出 数据 值 的 数据 库 储 存在 Gdoc 的 电子 表格 中 ， 用 
来 生成 项 目的 主要 汇总 数据 。 各 条 测量 值 一 个 不 漏 地 发 布 在 此 ， 并 附 有 

一 条 指 疝 原始 数据 的 链接 。 无 论 是 机 读 还 是 人 们 来 阅读 数据 ， 这 条 链接 


都 是 很 重要 的 ， 因 为 它 不 仅 提供 了 测量 值 的 出 处 〈 即 谁 给 出 的 断言 ) ， 
还 提供 了 此 断言 证 据 的 记录 。 人 们 可 以 点 击 链 接 来 查看 测量 是 如 何 进行 
的 ， 机 器 则 可 以 在 必要 时 下 载 或 者 抓 取 这 条 记录 。 

在 东 种 意义 上 ， 电 子 表格 是 从 实验 室 记录 本 转换 为 可 以 评论 和 过 泪 
数据 的 第 一 步 。 从 技术 角度 来 说 ， 选 择 Gdoc 可 能 十 一 种 偏好 ， 不 过 这 是 
FET UA RILA BORN: 允许 我 们 以 原始 格式 发 布 和 共有 至 数据 ， 有 一 个 实 
验 科 学 家 熟悉 的 界面 并 不 占用 他 们 额外 的 工作 ; 由 稳定 的 大 公司 维护 的 
免费 托管 服务 ， 可 以 让 世界 上 的 任何 人 以 最 小 的 代价 复制 这 个 信息 处 理 
模型 ， 最 后 ， 可 以 用 强大 并 灵活 的 API 访 问 数 据 。 很 少 有 其 他 的 方式 可 
以 让 普通 科学 家 用 熟悉 的 方式 使 用 、 添 加 、 下 载 原 始 数据 ， 并 且 也 为 其 
提供 强大 的 奔 层 数据 程序 访问 。 




















验证 开放 来 源 数 据 





由 于 数据 是 由 不 同 的 研究 人 员 采 用 不 同 的 方法 搜集 的 ， 因 此 很 可 能 
出 现 矛 盾 的 值 。 这 可 能 会 导致 出 现 异 常 值 或 者 直接 出 现 相差 很 大 的 续 
果 。 习 惯 上 ， 如 果 没 有 额外 的 信息 ， 研 究 人 员 只 能 将 每 个 测量 值 给 以 相 
同 的 权重 或 者 应 用 统计 方法 来 吻 除 异常 值 。 然 而 ， 由 于 我 们 采用 了 需要 
完整 记录 每 个 值 测量 过 程 的 开放 记录 本 方式 ， 每 个 测量 都 可 以 通过 记录 
的 信息 上 下 文 来 进行 评估 。 在 寿 干 情况 下 ， 这 样 可 以 允许 熟悉 此 方法 的 
科学 家 在 测量 条 件 不 适当 或 者 忽略 一 个 重要 参数 的 事实 基础 上 ， 别 除 有 
问题 的 数据 点 。 

就 溶解 度 来 说 ， 事 实证 明 : 混合 时 间 和 蒸发 条 件 都 是 重要 因素 。 对 
硝 基 葵 甲 醛 在 甲醇 中 溶解 度 的 确定 就 是 一 个 很 好 的 例子 。 在 五 个 测量 值 
中 ， 有 三 个 明显 低 于 另外 两 个 〈 见 图 16-2; 
http: //oru.edu/cccda/sl/solubility/ugidata.php?solute-4-nitrobenzaldehyde 
&solvent-methanol). jl) ÆA YEE PY TI Se A FH E P AY A 
fil, AERP, Pek ee. HPA REE CA B 
Hp], Pac fl) ES ee CETTE RE PUA, EBV AAA 
解 的 可 见 固体 。 通 过 检查 这 些 测量 实验 的 详细 情况 可 以 发 现 ， 测 量 值 较 
低 的 三 个 实验 都 只 是 稍 作 搅拌 ， 而 测量 值 较 高 的 两 个 实验 则 搅拌 了 好 几 
个 小 时 ， 这 说 明 实 验 需要 长 时 间 搅 拌 


(htp: //usefulchem.blogspot.com/2008/12/mechanical-turk-does-solubility- 





























on.html). 

原始 实验 记录 的 可 获得 性 使 得 所有 研究 人 员 都 可 以 发 现存 在 疑问 的 
测量 值 ， 也 可 以 从 “失败 ”的 实验 经 历 中 受益 。 这 就 是 科学 研究 的 本 质 。 
在 记录 实验 细节 禹 效 之 间 需 要 达到 一 个 平衡 。 初 始 实 验 的 目的 通常 是 
帮助 研究 人 员 找 出 需要 注意 的 影响 因素 。 遗 憾 的 是 ， 这 些 信息 通 弟 不 会 
在 研究 社区 内 分 享 。 

对 于 这 些 存在 疑问 的 结果 ， 通 常 我 们 不 是 直接 剔除 它们 ， 而 是 在 这 
些 测量 值 上 加 上 “请 勿 使 用 ”的 标记 ， 并 给 出 原因 。 这 使 得 其 他 研究 人 员 
可 以 点 击 进入 原始 的 实验 室 记录 本 页 面 并 自己 检查 原始 数据 。 错 误 可 能 
发 生 在 任何 地 方 ， 其 至 包括 验证 结果 的 过 程 中 。“ 错 误 ” 的 数据 在 某 些 用 
途上 也 可 能 是 有 价值 的 。 完 全 透明 可 以 让 数据 的 用 户 来 决定 在 分 析 中 包 
含 什么 数据 。 这 也 同样 会 减少 (但 是 不 会 消除 ) 隐藏 错误 的 风险 。 这 里 
有 一 个 这 种 标记 的 例子 ， 即 香草 醛 在 甲醇 中 溶解 度 的 测量 报告 
(htp: //usefulchem.blogspot.com/2008/11/what-is-solubility-of-vanillin- 





























in.html). 
显然 ， 在 我 们 标记 为 可 疑 或 者 不 可 信 的 数值 和 没有 标记 的 数值 之 间 
有 一 片 灰 色 地 带 ， 尽 管 未 被 标记 的 数值 在 有 些 问题 或 者 领域 还 存在 争 
。 一 天 下 来 ， 它 们 可 能 会 得 出 科学 的 判断 ， 同 时 ， 也 会 产生 大 量 分 
皮 。 每 个 案例 的 实验 原始 数据 都 可 以 被 获取 与 查验 ， 而 且 电 子 表格 的 历 
史 版 本 同样 如 此 。 我 们 需要 保持 以 下 两 者 的 平衡 : 提供 一 个 有 用 的 数据 
和 每 个 决断 与 错误 的 呈现 程度 。 然 而 ， 这 个 任务 是 很 具有 挑战 性 的 。 








在 线 及 布 数 据 








我 们 的 目标 是 让 所 有 的 实验 记录 与 处 理 后 的 数据 可 以 在 线 得 到 。 如 
何在 Web 中 以 一 种 有 用 的 格式 发 布 数据 产生 了 一 系列 的 问题 ， 其 中 包括 
标准 标识 符 、 可 视 化 工具 和 数据 集成 方式 的 选择 。 

化 学 实体 的 唯一 标识 符 

要 让 我 们 的 数据 有 用 ， 使 用 公认 的 标准 来 描述 化 学 实体 就 很 重要 。 
如 果 不 这 么 做 ， 数 据 集 的 集成 就 会 变 得 很 困难 或 者 不 可 能 。 在 化 学 中 ， 
有 些 人 认为 使 用 CAS 注 册 号 站 
(htp: //en.wikipedia.org/wiki/CAS_registry_number) 标 识 化 学 实体 很 理 
想 。 不 过 ，CAS 号 本 质 上 是 私有 的 ， 而 且 不 能 转化 为 化 学 结构 ， 只 能 
作 查 询 ， 而 且 依 赖 与 一 个 外 部 的 组 织 来 进行 编号 。 我 们 更 倾向 于 本 质 上 
开放 的 标识 符 ， 可 以 自由 地 进行 交换 ， 并 可 以 同化 学 连接 表 四 双向 转 
换 。 

IUPAC 国际 化 学 标识 符 (IChI， 发 音 为 “INchee”) 提供 了 一 个 非 私 
有 的 标准 与 算法 以 及 相应 开源 支持 软件 
(htp: //en.wikipedia.org/wiki/Inchi) 用 于 标识 字符 串 的 生成 及 标识 符 到 化 
学 结构 逆转 换 (参见 http: /www.qsarworld.conVINCHI1.php 的 最 近 讨 
论 )。InChI 作 为 一 个 标准 正在 获得 软件 三 商 、 出 版 商 和 开发 者 的 鼎力 
文 持 。InChI 算 法 一 一 即 对 同一 结构 生成 多 个 不 同 InChI 的 可 能 性 一 一 已 
经 通过 标准 InChI(Standard InChT) 的 开发 得 到 了 解决 。 对 于 某 些 用 途 ， 











InChIKey(InChI 的 一 种 hash 码 ) 已 经 很 实用 ， 可 是 ImChIKey 不 能 转换 成 
结构 ， 而 且 只 能 在 搜索 化 学 结构 的 查找 表 中 使 用 。 

SMILES(http: //en. wikipedia.org/wiki/SMILES) 是 一 种 标识 化 合 物 的 
常见 结构 ， 其 字符 串 编 码 非常 紧凑 ， 并 且 可 以 和 化 学 结构 双 辣 转换 。 但 
是 ，SMILES 算 法 有 多 种 形式 与 实现 ， 导 致 了 同一 化 学 实体 有 不 同 的 
SMILES。 现 在 我 们 在 此 项 工作 中 使 用 SMILES 是 由 于 其 简单 且 搜索 容 
易 。 正 如 本 章 的 “通过 唯一 标识 符 与 自 描述 数据 格式 实现 数据 集成 ?所 
述 ， 将 我 们 的 SMILES 转 换 为 InChI 是 可 行 的 ， 从 而 我 们 可 以 自动 将 数据 
集成 到 由 InChI 标 识 的 数据 网 络 中 。 

开放 数据 与 可 访问 服务 提供 了 广泛 的 可 视 化 与 分 析 选 择 

有 了 一 个 标准 、 自 由 、 可 访问 的 原始 溶解 度数 据 贮存 构架 ， 下 一 步 
就 是 分 析 数 据 。 分 析 可 以 是 简单 地 生成 所 有 已 完成 测量 的 汇总 ， 也 可 以 
是 来 自 数 据 衍生 模型 的 复杂 统计 描述 。 不 论 是 哪 种 情况 ， 都 有 必要 通过 
自动 化 的 方式 访问 数据 以 进行 处 理 。 采 用 其 他 来 源 的 信息 来 丰富 数据 也 
是 值得 一 做 的 。 这 反 过 来 又 要 求 主 要 数据 需 以 通用 的 标准 发 布 。 

电子 表格 包含 了 若干 列 ， 每 一 行 是 一 条 测量 值 。 溶 剂 和 溶质 都 采用 
了 两 种 格式 表示 : 人 类 可 读 的 通用 名 及 机 器 可 读 的 SMILES 编 码 。 由 于 
选择 GDoc 作 为 数据 的 主要 发 布 形式 ， 为 了 让 数据 集 发 挥 最 大 优势 ， 采 
用 机 器 和 人 类 可 读 的 两 种 表示 是 非常 重要 的 。 唯 一 不 需要 采用 两 种 表示 
方式 的 是 采用 数值 表示 的 溶解 度 本 身 。 

前 面 已 经 提 到 ， 我 们 决定 不 从 主 数据 集中 剔除 有 问题 的 数值 。 这 产 
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有 一 点 狐 独 ”。 对 于 这 项 工作 ， 我 们 决定 在 人 工 判 读 之 后 来 标记 那些 被 
认为 是 不 准确 的 数据 ， 并 给 出 理由 。 这 使 得 任何 用 户 在 做 任何 分 析 时 都 
可 以 选择 采用 那些 记录 ， 不 管 是 采用 人 工 还 是 自动 的 方式 。 任 何 进一步 
的 详细 分 析 都 需要 访问 电子 表格 中 的 数据 。 最 简单 的 方式 就 是 把 数据 导 
出 ， 比 如 导出 为 CSV 文 件 ， 然 后 用 其 他 软件 来 分 析 。 但 这 样 会 导致 无 法 
获取 到 最 新 的 数据 。G 公 司 的 Doc API 则 可 以 让 创建 Web 应 用 变 得 简单 ， 
同时 又 维持 着 与 “实况 ”数据 的 连接 。 

作为 这 种 应 用 的 示例 ， 我 们 创建 了 一 个 Web 服 务 来 让 用 户 查 询 电子 
表格 中 储存 的 数据 并 获取 表格 汇总 〈 见 图 16-2) 。 这 个 基于 表单 的 查询 
界面 为 获取 相关 数据 提供 了 一 个 快速 直观 的 访问 方式 。 整 个 页 面 只 由 
HTML 与 JavaScript 构 成 ， 不 需要 任何 的 服务 器 端 软件 。 数 据 是 通过 G 公 
司 提供 的 API 从 GDoc 中 异步 访问 的 。 获 取 数据 之 后 ， 就 可 以 进行 一 系列 
的 计算 。 在 这 里 ， 我 们 要 计算 溶解 度 的 平均 值 和 标准 差 ， 可 以 用 于 动态 
高 亮 反 常数 据 。 不 仅 原 始 数据 子 集 的 表格 输出 很 有 用 ， 可 视 化 技术 也 可 
有 效 地 概括 查询 结果 。 这 个 人 查询 应 用 采用 G 公 司 Visualization API 生 成 电 
子 表格 中 提取 数据 的 柱状 图 。 从 电子 表格 提取 数据 很 容易 ， 生 成 一 系列 
可 视 化 图 表 也 是 很 容易 的 。 在 我 们 的 案例 中 ， 一 个 显示 某 化 合 物 在 不 同 
溶剂 中 溶解 度 的 简单 柱状 图 就 可 以 提供 结果 的 简要 概括 。 

本 应 用 的 另外 一 个 值得 注意 的 地 方 是 表格 中 包含 化 学 结构 的 二 维 泻 
染 图 ， 演 染 图 是 通过 美国 Indiana University 基 于 REST 的 服务 提供 的 。 通 




















过 在 服务 URL 中 传递 SMILES 代 码 ， 可 以 将 化 学 结构 的 二 维 图 片 插 入 到 
任何 网 页 中 。 同 样 ， 这 些 特 性 也 不 需要 服务 器 端 软件 的 文 持 。 分 发 这 种 
应 用 变 得 非常 容易 ， 仅 仅 只 需要 把 HIML 页 面 拷贝 到 另 一 个 Web 服务 器 
EBNF. 
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图 16-2: 用 于 检视 溶解 度数 据 的 可 视 化 工具 。 A) 采用 JavaScript 和 
G 公 司 Doc API 生 成 的 一 个 简单 表单 输入 界面 ; B) 溶解 度数 值 的 图 形 化 
表示 ; C) 带 有 二 维 化 学 结构 泻 染 图 的 数据 表格 输出 ， 可 以 从 
http: //toposome.chemistry.drexel.edu/ ~tguha/jcsol/sol.html 访 问 此 服务 。 
请 注意 : 本 服务 与 这 里 提 到 的 其 他 服务 都 是 动态 的 ， 可 能 得 到 与 上 图 所 
示 不 同 的 查询 结果 ( 见 彩 图 54) 


虽然 这 只 是 一 个 相当 简单 的 应 用 程序 ， 但 它 突出 了 这 种 解决 方案 的 
分 布 式 本 质 ， 即 把 开放 数据 与 具有 多 个 来 源 的 免费 可 视 化 方法 结合 起 
来 。 更 重要 的 是 ， 这 个 系统 的 分 布 式 本 质 和 可 自由 获得 的 数据 使 得 来 自 
不 同 领域 的 专家 们 一 一 测量 数据 的 实验 员 、 制 作 接口 的 软件 开发 者 以 及 
制作 创建 统计 模型 的 计算 建 模 人 员 一 一 可 以 更 好 地 将 他 们 的 专业 技术 结 
合 起 来 。 开 放 数 据 、 开 放 服 务 以 及 支持 它们 的 生态 系统 的 真正 前 途 在 
于 : 这 种 专业 技术 的 结合 不 需要 建立 任何 正式 的 合作 关系 。 研 究 人 员 可 
以 用 一 种 数据 的 测量 者 所 想不到 的 方式 来 使 用 数据 。 不 管 是 进行 补充 实 
验 ， 还 是 做 新 的 分 析 ， 或 者 提供 处 理 数 据 的 新 服务 ， 这 样 做 都 可 以 使 原 
始 的 数据 集 更 有 价值 ， 同 时 加 强 它 周围 的 生态 系统 。 而 且 不 管 什么 时 
候 ， 都 可 以 找到 指向 原始 记录 的 链接 。 

通过 中 心 聚合 服务 集成 数据 

对 于 我 们 主张 的 方式 存在 一 个 合理 反对 意见 ， 那 就 是 : 如 果 此 方式 
被 广泛 采用 ， 那 么 将 会 导致 很 多 分 散 、 不 相连 的 数据 源 出 现 。 尽 管 ， 从 
技术 上 可 以 利用 搜索 工具 将 这 些 资源 汇总 起 来 ， 但 对 于 研究 人 员 来 说 ， 
这 仍然 是 一 个 问题 。 因 为 他 们 通常 习惯 于 使 用 几 种 他 们 喜欢 的 服务 。 有 
人 校对 的 化 学 信息 数据 集中 ， 美 国 化 学 会 的 化 学 文摘 服务 (Cemical 
Abstract Service,CAS) 是 黄金 标准 。CAS 注 册 集 中 履 盖 了 超过 四 千 万 种 物 
质 (htp: /www.cas.org/newsevents/connections/derivative.htmD)， 其 中 包含 
的 数据 来 自 出 版 物 、 专 利 、 化 合 物 目录 以 及 越 来 越 多 的 在 线 数据 源 ， 比 
如 ChemSpider(http: //www.chemspider.com/blog/caschemspider- 














connectivies-and-unintended-collaboration.html) . 

ChemSpider 是 以 “构建 以 结构 为 中 心 的 化 学 家 社区 ”为 目的 为 化 学 家 
创建 的 Web 资源。 有 来 自 超过 150 个 数据 源 的 两 千 余 万 不 同 的 化 学 实 
体 ，ChemSpider 已 经 成 为 了 化 学 家 寻找 化 学 实体 信息 的 主要 Internet 资 源 
之 一 。 每 个 化 合 物 都 有 不 同类 型 的 信息 相互 关联 起 来 ， 这 些 信息 包括 不 
同 的 标识 符 〈 系 统 命名 、 商 品名 、 注 册 号 、 各 语种 命名 ) ， 理 化 性 质 的 
预测 值 ， 实 验 获得 的 物理 、 化 学 与 光谱 数据 来 自 一 系列 数据 源 
(htp: /www.chemspider.com/DataSources.aspx) 的 指向 链接 。 因 此 
ChemSpider 可 以 看 做 一 个 指向 其 他 资源 且 基 于 结构 的 链接 农场 个。 同 
时 ，ChemSpider 还 提供 了 一 个 操作 环境 ， 以 便 用 户 在 线 简 要 或 者 扩展 显 
示 数 据 。 用 户 可 以 批注 、 校 对 数据 ， 从 而 删除 化 学 实体 的 错误 关联 ， 并 
且 添 加 他 们 自己 的 信息 ， 包 括 指向 外 部 资源 的 链接 或 者 其 他 数据 批注 。 
用 户 也 可 以 向 数据 库 中 储存 新 化 学 结构 ， 并 为 之 关联 光谱 数据 、 图 片 ， 
甚至 是 视频 文件 。ChemSpider 中 有 很 多 种 搜索 功能 ， 包 括 搜索 预测 的 数 
据 、 基 于 结构 或 子 结构 的 搜索 |。 

ChemSpider 中 数据 主键 通常 是 分 子 的 通用 标识 符 ， 如 此 就 为 连接 其 
他 来 源 的 化 学 信息 提供 了 一 个 理想 的 环境 。ChemSpider 不 仅 提供 了 化 学 
数据 搜索 的 中 心 资 源 ， 同 时 也 是 用 户 的 数据 银行 ， 其 他 研究 人 员 就 可 以 
很 容易 地 通过 它 找到 我 们 的 数据 。 尽 管 一 些 ChemSpider 关 联 的 数据 是 由 
在 线 资源 抓 取 的 数据 搜集 的 ， 但 是 对 这 种 方式 需要 小 心 处 理 


(htp: //www.chemspider.com/blog/care-in-nomenclature-handling-andwhy- 

















visual-inspection-will-remain.html)， 更 多 的 数据 是 在 进行 了 某 种 形式 的 
人 工 校对 后 添加 的 。 

非 水 溶剂 溶解 度数 据 是 作为 ONS-Solubilityl5 项 目的 一 部 分 添加 到 
ChemSpider 中 的 。 目 前 一 些 在 线 可 得 的 数据 是 作为 补充 信息 和 化 合 物 数 
据 中 可 能 有 的 其 他 理化 数据 放 在 一 起 的 。 溶 解 度数 据 有 一 个 链接 指向 实 
验 记 录 页 面 ， 这 样 既 和 ChemSpider 作 为 指向 原始 数据 源 的 链接 方式 一 致 
又 和 我 们 指向 原始 记录 的 方式 一 致 。 图 16-3 给 出 了 一 个 ChemSpider 的 示 
例 。 记 录 中 有 了 越 来 越 多 的 非 水 溶剂 溶解 度数 值 ， 可 能 是 人 工 测定 或 者 
机 器 测定 的 ， 这 些 数 据 都 会 发 布 出 来 ， 其 相应 的 原始 来 源 信息 也 可 以 点 
击 可 得 。 





INHERENT PROPERTIES, IDENTIFIERS AND REFERENCES 





Chem Spider ID: 62434 
Empirical Formula: C3H2NO5 


Molecular Weight: 89.0932 


0 Nominal Mass: 89 Da 
Average Mass: 89.0932 Da 
Hc. JL nn, Monoisotopic Mass: 89.047678 Da 


Systematic Name: methyl 2-aminoacetate 

SMILES: O=C(OC)CN 

InChl: InChI - 1/C3H7NO2/c1-6-3(5)2-4/h2,4H2,1H3 
InChIKey: KQSSATDQUYCRGS-UHFFFAOYAU 

Std. InChI: InCh1*1S5/C3H7NO2/c1-6-3(5)2-4/h2,4H2,1H3 
Std. InChIKey: KQSSATDQUYCRGS-UHFFFAOYSA-N 
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* Experimental Physchem Properties 
Non-Aqueous Solubility: 1.32M in methanol ©) dp 


NAMES AND SYNONYMS 
Validated by Experts, Validated by Users, Non-Validated, Remeved by Users, Redirected t 
(Methoxycarbony!)methylamine 
glycine methy! ester 
Glycine O-methy! ester 


Glycine, methyl ester 
Methy! aminoacetate 


图 16-3: 这 是 ChemSpider 条 目 显 示 溶 解 度 数据 与 原始 数据 链接 的 例子 
( 见 彩 图 55) 
以 后 会 有 更 多 质量 与 校对 程度 参差 不 齐 的 数据 在 线 发 布 ， 可 以 预想 
到 数据 提取 过 程 会 自动 化 。 在 现在 的 项 目 中 我 们 已 经 在 努力 利用 自动 化 
过 程 ， 不 过 自动 化 过 程 可 以 推广 之 前 有 两 大 困难 需要 克服 。 第 一 个 问题 














是 信任 问题 : 哪些 来 源 的 数据 可 以 给 予 充 分 的 信任 然后 自动 提取 ? 对 这 
些 数 据 源 应 该 进行 何 种 程度 的 人 工 校对 ? 目前 对 GDoc 电 子 表格 主 数据 
的 校对 程度 是 否 足够 ”是 否 还 需要 进一步 的 过 滤 ? 对 目前 的 情况 来 说 ， 
我 们 采取 的 方式 对 一 个 致力 于 提供 化 学 家 可 以 无 条 件 信 任 的 服务 还 有 差 
距 。 随 着 研究 者 发 布 更 多 的 原始 数据 以 及 自动 数据 提取 的 增多 ， 需 要 详 
细 讨 论 数据 应 该 在 何 时 以 怎样 的 方式 有 发布， 数据 放置 在 上 千 白 名 单 中 需 
要 怎样 的 标记 。 数 据 发 布 的 认证 过 程 会 越 来 越 多 ， 从 而 为 发 布 的 数据 提 
供 质量 和 功能 的 双重 标记 。 

第 二 个 主要 问题 是 功能 问题 : 关联 到 ChemSpider 的 数据 集 目 前 来 说 
还 不 多 ， 在 大 多 数 情况 下 也 是 稳定 不 变 的 ， 所 以 人 工 提 取 过 程 尽管 需要 
工作 较 多 但 是 更 实用 一 些 。 随 着 数据 集 的 增多 ， 这 种 人 工 过 程 会 变 得 不 
可 能 。 将 数据 作为 在 线 电 子 表 格 发 布 出 来 对 研究 组 来 说 很 方便 ， 但 是 并 
不 能 映射 进 ChemSpider 或 者 其 他 中 心 汇总 服务 的 数据 结构 中 。 
ChemSpider 是 基于 微软 SQL Server 的 关系 型 数据 库 的 。ChemSpidr 标 准 
Web 页 面 中 显示 的 理化 数据 是 保存 在 数据 库 的 数据 表 中 的 。 在 有 数 以 万 
计数 据 供应 者 创建 各 种 数据 的 世界 中 ， 需 要 一 个 通用 语言 来 使 广泛 的 数 
据 重用 于 汇总 成 为 可 能 。 描 述 化 学 信息 有 多 种 相互 竞争 的 标准 。 最 可 以 
信赖 的 方式 是 开发 一 种 方法 让 数据 尽 可 能 以 通用 的 形式 展示 。 人 然后 ， 束 
可 以 开发 在 不 同 描述 标准 间 转 换 的 服务 。 

通过 唯一 标识 符 与 自 描 述 数据 格式 实现 数据 集成 

尽管 G 公 司 的 Doc API 提 供 了 为 数据 集 开发 分 析 工 具 与 可 视 化 方法 的 

















简单 途径 ， 但 是 问题 仍然 存在 ， 数 据 的 展示 并 不 是 标准 格式 ， 连 唯一 标 
识 符 也 是 如 此 。 那 些 工具 是 根据 GDoc 电 子 表 格 为 此 数据 集 所 写 的 。 简 
单 来 说 ， 它 们 需要 人 类 来 理解 电子 表格 的 每 一 列 是 什么 描述 符 什么 数 
值 。 尽 管 利 用 程序 来 判断 包含 SMILES 代 码 的 列 是 可 行 的 ， 但 是 机 器 却 
不 能 知道 它 是 溶剂 还 是 溶质 ， 甚 至 根本 就 不 能 判断 到 底 是 不 是 溶解 度数 
据 。 要 实现 相互 连接 数据 的 希望 ( 即 支持 ChemSpider 和 其 他 服务 的 自动 
提取 ) ， 要 以 最 通用 的 方式 将 数据 提供 给 其 他 研究 人 员 ， 那 么 就 有 必要 
提供 一 种 遵守 语法 标准 与 描述 符 标准 的 格式 。 

资源 描述 框架 (Te Resource Description Framework,RDF)， 提 供 了 将 数 
据 集 以 一 种 公认 的 机 器 可 读 格式 发 布 的 方式 。 有 了 这 种 格式 ， 任 何 信息 
都 可 以 转换 为 一 条 由 一 个 “主语 ”、 一 个 “谓语 ”和 一 个 “ 值 ” 组 成 的 语句 。 
举例 来 说 ， 下 面 代码 片段 中 所 示 代 码 表明 电子 表格 中 找到 的 对 象 叫做 
solute#59， 在 给 出 的 URL 中 定义 为 资源 。RDF 使 用 “命名 空间 ”， 或 者 说 
采用 公认 概念 集 来 定义 “资源 ”之 间 的 关系 ， 资 源 可 以 是 由 唯一 标识 符 指 
向 的 任何 对 象 。 这 里 一 共有 四 个 主 命名 空间 。 第 一 个 是 RDF 命 名 空间 本 
身 ， 它 定义 了 文件 是 RDF 格 式 的 ， 提 供 了 诸如 “由 .……. 定 义 ? 或 者 “是 一 
个 资源 ”这 样 的 顶层 概念 。 第 二 个 命名 空间 是 包含 数据 的 电子 表格 ， 其 
本 身 也 是 个 资源 ， 在 这 里 由 命名 空间 ons 定 义 ， 其 中 又 包含 了 某 些 资 
源 ， 每 个 单元 格 即 是 一 个 资源 。 第 三 个 命名 空间 是 Dublin Core(dc), 4 
含 了 诸如 名 称 、 作 者 和 版 本 的 概念 。 第 四 个 命名 空间 是 chem， 托 管 在 
http: /rdf.openmolecules.net(RON)， 用 来 指定 某 个 单元 格 定义 的 分 子 是 























被 定义 为 一 个 资源 的 。 

如 前 面 所 说 ， 电 子 表格 有 它 自己 的 数据 结构 ， 大 体 上 是 每 一 行 指向 
一 个 测量 值 。G 公 司 的 Doc API 可 以 让 一 个 简单 URL 就 可 以 引用 一 个 单 
元 格 。 要 将 此 写 入 RDF 声 明 中 ， 我 们 需要 描述 单元 格 内 容 间 的 关系 ， 比 
如 “2- 辛 酸 ” 和 其 他 资源 间 的 关系 。 一 个 简单 关系 指出 “2- 辛 酸 ” 由 RON 的 
某 个 资源 定义 ，RON 通 过 简单 的 HTTP URL 引 用 。 有 了 定义 好 的 单元 格 
内 容 ， 就 可 以 使 用 外 部 资源 来 找 出 关于 这 个 分 子 更 多 的 信息 。 解 析 这 个 
URL 就 可 以 获得 RON 服务 定义 的 更 多 关于 这 个 分 子 的 RDF 语 句 。 类 似 
地 ， 它 也 可 以 给 出 SMILES 和 分 子 的 名 称 ， 这 些 都 是 从 电子 表格 中 取得 
的 。 对 我 们 数据 中 每 条 表示 分 子 的 记录 都 无 一 例外 地 可 以 定义 一 个 标准 
描述 让 和 包括 系统 命名 、InChI 和 SMILES 在 内 的 其 他 标准 定义 连接 起 














<ons:Solute rdf:about="http: //spreadsheet.google.com/ 
oes /onto#solute59o"> 

<rdfs:isDefinedBy rdf:resource="http: //rdf.openmolecules.net/? 
nChI- 

1/C8H1402/c1-2-3-4-5-6-7-8 (9) 10/h6-7H, 2-5H2, 1H3, (H, 9, 10) "/> 

<chem:inchi >InChI=1/C8H1402/c1-2-3-4-5-6-7-8 (9) 10/h6-7H, 2-5H2, 
1H3; 

CH, 9, 10) </chem:inchi> 

<chem:smiles>CCCCCC=CC (=0) 0</chem:smiles> 

«dc:title-2-octenoic acid</de:title> 

</ons:Solute> 
























































定义 了 电子 表格 中 找到 的 每 个 化 学 实体 之 后 ， 我 们 就 可 以 将 每 个 测 
量 值 类 似 上 述 的 RDF 片 短 表达 。RDF 定 义 了 新 的 测量 值 ， 给 出 了 溶剂 、 
溶质 、 溶 解 度 和 测量 值 所 属 的 实验 。 由 于 我 们 已 经 用 化 学 表达 定义 了 每 


个 溶质 和 浴 剂 的 ID， 这 个 测量 值 信息 也 可 以 被 其 他 描述 同一 分 子 的 RDF 
文件 链接 并 使 用 。 下 面 的 RDF 片 段 使 用 XML 实体 ons 作 为 

http: //spreadsheet.google.com/plwwufp30hfq0udnEmRD1aQ/onto# 的 别名 
来 让 XML 可 读 性 更 好 。(masurement179 可 以 扩展 为 添加 


了 “measurement179” 的 完整 URL。) 





<ons:Measurement RDF:about-"measurement179"- 
<ons:solubility>0.44244235315106</ons:solubility> 
<ons:solvent RDF: resource="solvent8"/> 

<ons:solute RDF:resource="solute26"/> 
<ons:experiment RDF:resource="experiment2"/> 
</ons:Measurement > 
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询 系统 读 取 或 者 分 析 。 通 过 使 用 合适 的 命名 空间 ， 尤 其 是 那些 被 承认 和 
分 享 的 命名 空间 ， 可 以 生成 基本 上 自 描述 的 数据 文件 。 我 们 开发 了 一 个 
解析 器 (htp: //github.com/egonw/onssolubility/tree/) 来 生成 完整 的 RDEF 文 
档 ， 可 以 在 


http: //github.com/egonw/onssolubility/tree/master/ons.solubility.RDF/ons.R 





下 载 。 化 学 开发 工具 包 (Te Chemistry Development Kit,CDK; 参见 

http: //cdk.sourceforge.net/) 用 来 从 SMILES 中 获得 包括 ImChI 在 内 的 分 子 
属性 。 这 是 关键 一 步 : 将 实验 特定 信息 转换 为 可 以 有 任何 文 持 RDF 系 统 
或 服务 读 取 的 数据 文件 。 这 种 服务 不 需要 理解 如 何 处 理 新 命名 空间 的 特 
定 概 念 ， 但 是 却 可 以 知道 如 何 处 理 这 些 概念 所 属 的 类 别 ， 从 而 可 以 将 数 
据 解 析 为 使 用 相同 命名 空间 的 其 他 资源 。 





RDE 的 真正 力量 在 于 将 多 个 资源 通过 链接 连接 起 来 〈 见 图 16-4) 。 
举例 来 说 ， 可 以 将 我 们 的 实验 数据 连接 到 DBPedia 的 数据 中 ， 
DBPedia(http: /dbpedia.org) 是 一 个 由 RDF 呈 现 的 在 线 信息 资源 。 
DBPedia 使 用 名 为 简单 知识 组 织 系统 (Smple Knowledge Organization 
System,SKOS; 参见 http: //www.w3.org/TR/skos-primer/) 的 命名 空间 来 
引入 诸如 “类 别 ” 的 概念 。 在 DBPedia 中 ， 不 同 的 溶剂 被 描述 为 属于 不 同 
的 类 表 ， 如 碳水 化 合 物 或 者 醚 类 。 通 过 将 我 们 的 数据 与 DBPedia 中 的 
RDF 语 句 结合 起 来 ， 可 以 对 我 们 的 实验 数据 进行 诸如 按照 不 同 溶剂 类 别 
中 的 测量 值 进行 查询。 之 所 以 是 这 样 可 能 是 因为 RON 中 的 资源 将 某 些 概 
念 (分子 的 ID) 与 我 们 的 数据 和 DBPedia 中 的 资源 链接 了 起 来 。 尺 管 
DBPedia 中 可 能 包含 错误 的 化 学 命名 (只 要 对 象 天 联 了 正确 的 InChI 即 
可 ) ; 尽管 我 们 的 数据 没有 溶剂 类 别 的 概念 ， 尽管 DBPedia 对 ONS 命 名 
空间 一 无 所 知 ，RDF 还 是 做 到 了 。 








DBPedia 


图 16-4: 通过 R D 了 将 溶解 度 测 量 值 和 更 广阔 的 数据 网 连接 到 一 
起 。RO N(http: //rdf.openmolecules.net) Pp DBPedia, Chemical 
BlogspacefeChEBI (欧洲 生物 信息 学 研究 所 的 化 学 资源 ) 中 的 记录 连接 
到 一 起 

将 此 更 进一步 ， 可 以 把 我 们 的 实验 数据 连接 到 Web 上 更 广阔 的 天 地 
中 去 ， 举 例 来 说 ， 可 以 利用 RON 中 的 RDF 识 别 出 讨 论 某 个 特定 化 合 物 的 
博客 。 此 RDF 包 含 了 指向 Chemical 
blogspace(http: //cb.openmolecules.net/) 的 链接 ， 同 时 共享 唯一 识别 符 
《在 这 里 ，InChI 以 URI 的 形式 得 到 了 使 用 ) 。rdf.openmolecules.net 连 接 
到 了 一 系列 数据 源 ， 这 样 又 为 不 同 来 源 的 数据 和 分 析 结 合 在 一 起 铺 平 了 
道路 。RDF 方 式 的 价值 在 于 可 以 在 此 图 的 任何 一 个 地 方 插入 附加 数据 。 











共享 更 多 共同 的 词汇 元 素 可 以 让 数据 集成 变 得 更 好 ， 不 过 只 要 有 一 个 共 
同 的 标识 符 ， 数 据 集成 就 可 以 开始 。 

由 CAS 注 册 号 是 一 种 化 学 物质 的 人 工 编 号 方法 ， 如 甲 荣 的 CAS 注 册 号 
为 108-88-3。 

2 化 党 连接 表 是 在 计算 机 中 表示 化 学 分 子 结构 的 一 类 常见 格式 。 其 
基本 原理 为 储存 每 个 原子 信息 与 原子 之 间 的 连接 关系 。 

[3JIUPAC， 国 际 纯粹 与 应 用 化 学 联合 会 。 

[4|Bplink farm， 指 本 身 并 无 内 容 ， 但 提供 大 量 链接 的 网 站 。 

[结构 搜索 指 的 是 以 化 学 拓扑 结构 为 查询 对 象 ， 采 用 拓扑 结构 匹配 
而 非 字 符 串 查询 来 进行 化 学 搜索 的 方式 。 

[6] BP Open Notebook Science-Solubility， 开 放 记 录 本 科学 溶解 度 项 目 。 


[7] Bp 和 包括 “主语 ” “谓语 ” 和 “Ii” RDF 4 ` 


结束 循环 : 采用 可 视 化 技术 局 友 新 实验 








前 面 说 过 ， 实 验 取得 的 数据 可 以 采用 很 多 种 方式 ， 从 可 视 化 到 建 
模 。 这 些 活 动 都 很 有 用 ， 可 以 为 手头 的 实际 问题 提供 帮助 。 不 过 我 们 的 
主要 目标 是 采用 建 模 和 分 析 来 启发 新 实验 的 设计 。 随 着 开放 来 源 努 力 的 
扩展 ， 考 虑 可 能 的 实验 与 优先 度 是 很 重要 的 ， 尤 其 是 在 最 终 目 标 是 让 更 
多 感 兴趣 、 但 不 一 定 是 有 经 验 的 研究 者 参与 进来 的 情况 下 。 这 种 计算 上 
的 优先 级 在 很 多 情况 下 都 是 有 用 的 ， 如 资源 《经 费 、 材 料 、 时 间 ) 有 限 
不 能 进行 所 有 可 能 的 实验 。 就 溶解 度 来 说 ， 可 能 有 实验 员 问 :“ 我 们 已 
经 测试 了 这 些 化 合 物 ， 下 一 个 该 做 什么 ? ”数据 的 可 视 化 既 可 引 人 注 意 
又 可 在 资源 有 限 的 情况 下 为 下 一 个 实验 的 选择 提供 帮助 。 这 就 建立 了 实 
验 和 计算 的 良性 循环 ， 使 得 实验 者 和 数据 分 析 者 都 可 以 人 尽 其 才 。 

要 确定 我 们 〈 或 者 别人 ) 下 一 步 测试 哪 些 化 合 物 ， 我 们 需要 一 种 方 
式 来 了 解 我 们 所 测定 的 化 合 物 在 化 学 空间 号 的 位 置 。 然 后 就 可 以 确定 我 
们 的 数据 在 化 学 空间 中 所 空缺 部 分 的 位 置 ， 并 用 此 空间 内 的 特定 分 子 来 
拟 合 ， 从 而 进行 这 些 实验 。 这 需要 集成 我 们 数据 集中 找 不 到 的 信息 。 我 
们 有 化 合 物 和 溶剂 的 ID 也 有 溶解 度 ， 但 是 我 们 不 知道 分 子 的 特性 ， 也 就 
是 它们 在 化 学 空间 中 的 位 置 。 要 获取 此 信息 ， 我 们 需要 使 用 一 系列 服务 
创建 化 学 数据 的 混搭 (mshup)。 我 们 提供 了 CDK(Steinbeck 2006) 描述 符 
的 一 个 简易 REST 接 口 。 类 似 
































http: //www.chembiogrid.org/cheminfo/rest/desc/descriptors/c1ccccciCOCC 


这 样 的 URL 可 以 额外 获取 包含 多 个 URL 的 XML 文档 ， 其 中 每 个 URL 又 
指向 一 个 含有 特定 描述 符 数值 的 XML 文档 。 这 里 展示 的 可 视 化 所 采用 
的 空间 特性 包括 化 合 物 分 子 量 (M)， 预 测 的 油水 分 配 系数 (AogP， 化 合 物 
亲 水 亲 油 特性 的 一 种 度量 ) ， 还 有 计算 得 到 的 分 子 表面 积 TSA)。Web 
服务 中 还 有 更 多 的 描述 符 可 供 我 们 使 用 。 

由 于 这 里 所 有 的 服务 和 数据 都 在 开放 Web 上 提供 ， 三 方 用 户 就 可 以 
利用 这 些 服 务 和 数据 来 进行 可 视 化 。 使 用 GDoc 中 的 数据 和 Indiana 
University 的 web 服务， 我 们 独立 开发 了 一 个 可 视 化 工具 ， 可 以 提供 所 有 
化 合 物 在 某 个 特定 溶剂 中 溶解 度 的 多 维 可 视 化 
(htp: //oru.edu/cccda/sl/descriptorspace/ds.php)。 在 图 16-5 中 ，X 与 Y 轴 都 
是 一 个 特定 的 分 子 插 述 符 ， 颜 色 表示 化 合 物 的 类 型 ， 每 个 点 的 大 小 和 闫 
色 表 示 溶 解 度 。 另 外 ， 把 鼠标 在 点 上 甚 停 可 以 激活 一 个 含有 更 多 详细 信 
奶 的 提示 条 ， 其 中 有 结构 和 溶解 度数 据 。 此 图 清楚 地 显示 了 现 有 数据 点 
所 没有 占据 的 化 学 空间 部 分 (比如 图 A 的 左下 方 )。 理 论 上 讲 ， 可 以 查 
询 ChemSpider 这 样 的 数据 源 来 给 出 空白 部 分 化 合 物 的 建议 。 

要 扩展 多 维 展示 的 能 力 ， 我 们 准备 了 在 Second Life" 

(htp: //www.secondlife.com; 见 图 16-6) 的 3D 环 境 中 的 可 视 化 工具 。 和 
GDoc 一 样 ，Second Life 也 是 一 个 古怪 的 科学 可 视 化 环境 。 不 过 ， 它 一 
样 满足 了 我 们 对 项 目 其 他 部 分 所 要 求 的 条 件 。 它 通过 一 个 通用 的 免费 程 
序 包 为 用 户 提 供 了 一 个 简单 (或 者 说 相对 简单 ) 的 环境 。 其 他 专门 开发 
的 可 视 化 工具 经 常 很 复杂 而 且 价格 昂贵 ， 和 和 它们 相 比 ，Second Lifer # 

















Pet Stitt. MAY AG Am AY A ER UE, Second Life 同 时 也 有 很 多 优 
扩 。 它 可 以 在 图 表 周 围 移动 ， 放 大 缩小 ， 甚 至 走 进 图 表 中 ， 从 内 部 的 角 
度 来 查看 图 表 。 不 同 的 用 户 也 可 以 同时 查看 和 操作 同一 图 表 。 从 开发 者 
的 角度 看 ，Second Life 提 供 了 将 数据 市 到 Web 之 外 的 能 力 ， 可 以 使 用 前 
面 提 到 的 Web 服 务 ， 同 时 也 为 用 户 提 供 了 一 个 可 扣 击 界面 ， 可 以 操作 图 
表 或 者 随 着 数据 点 中 的 链接 访问 数据 源 和 实验 记录 。 从 理论 上 来 说 ， 使 
用 一 个 完全 在 浏览 韦 中 工作 的 开源 泻 染 系统 可 能 更 好 ， 但 是 开源 系统 十 
分 有 限 ， 而 且 没 有 其 他 系统 提供 了 像 Second Life 这 样 的 技术 性 能 、 简 洗 
的 界面 和 可 用 性 的 组 合 。 从 实际 应 用 上 来 说 ， 这 些 引 人 注目 的 可 视 化 界 
面 已 经 说 明了 问题 。 
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图 16-5: 化 学 空间 溶解 度数 据 的 图 表 展 示 。A 和 B 给 出 了 同一 数据 
组 在 表示 不 同化 学 特性 的 数 轴 上 的 两 个 可 视 化 图 表 。 点 的 颜色 表示 化 合 
物 的 类 型 (红色 的 为 醛 类 ， 蓝 色 为 其 酸 类 ,黄色 的 为 胺 类 ， 黑 色 表 示 其 
th) ， 点 的 大 小 表示 溶解 度 的 值 。 表 C 显 示 了 可 点 击 的 界面 ， 其 中 有 单 
个 数据 点 的 化 合 物 结构 和 溶解 度 值 ( 见 彩 图 56) 

很 明显 ， 易 访问 的 数据 会 让 计算 科学 家 可 以 进行 一 系列 分 析 ， 不 过 
实验 和 计算 的 紧密 集成 则 可 使 得 整体 效率 更 高 。 虽 然 很 多 计算 分 析 需 要 
大 量 的 人 工 干 预 ， 不 能 转换 为 自动 化 的 在 线 服 务 ， 不 过 也 有 很 多 简单 的 
分 析 能 转换 为 可 以 与 一 系列 平台 交互 的 服务 。 这 样 ， 分 析 数 据 来 指示 实 





验方 向 、 开 发 新 的 应 用 或 者 和 混搭 其 他 数据 和 应 用 都 变 得 更 简单 了 。 这 
些 混搭 展示 出 了 使 用 广为人知 且 易 于 转换 、 机 器 可 读 标 识 符 的 强大 之 
处 。 此 处 的 SMILES 编 码 是 关键 的 标识 符 ， 使 用 它 可 以 从 其 他 Web 服 
务 、 数 据 源 或 者 其 他 研究 者 实验 数据 中 获取 进一步 的 数据 。 在 不 久 的 将 
来 ， 采 用 可 以 描述 结果 的 RDF 会 极 大 地 促进 自动 集成 。 











图 16-6: 使 用 Second Life 展 示 多 维 数 据 。 三 个 空间 轴 分 别 表示 三 个 
化 学 描述 符 。 球 的 磊 色 表示 化 合 物 的 类 别 (和 图 16-5 的 定义 一 样 ) ， 球 
的 大 小 表示 在 当前 溶剂 中 的 溶解 度 。 此 可 视 化 图 表 可 以 在 
http: //slurlcom/secondlife/Drexel/165/178/24 找 到 ， 即 Second Life 中 的 
Drexel £j 〈 见 彩 图 57) 

由 于 RDF 提 供 了 一 个 基于 公认 字典 的 自 描 述 框架 ， 在 不 知道 服务 在 
何 处 且 不 了 解 内 部 数据 结构 的 情况 下 ， 搜 索 提 供 感 兴趣 信息 的 数据 服务 
也 是 可 能 的 。 现 在 大 多 数 的 混搭 服务 都 是 在 已 知 服务 、 已 知 数据 结构 
上 ， 通 过 单个 公用 键 〈 如 地 理 位 置 、 搜 索 项 、 日 期 ) 工作 的 。 开 放 数 据 


Web 的 对 象 间 关系 都 是 自 描述 的 ， 其 真正 希望 在 于 任何 人 都 可 以 创建 任 
意 的 混搭 服务 ， 其 中 的 数据 搜索 和 信息 资源 都 是 过 程 的 一 个 整体 部 分 。 
[1] PP Chemical Space， 指 的 是 所 有 稳定 化 合 物 所 组 成 的 集合 。 








四 即 第 二 人 生 ， 是 由 Linden 实 验 室 开 发 的 一 个 基于 因特网 的 虚拟 世 
界 游戏 。 


在 开放 数据 和 免费 服务 下 建立 数据 网 络 


科学 展示 和 科学 交流 的 艺术 很 大 程度 上 在 于 设计 可 以 剔除 不 准确 或 
者 是 误导 性 结果 的 流程 ， 同 时 又 要 提出 证 据 来 论证 一 个 人 们 可 以 理解 的 
简单 解释 。 科 学 ， 可 以 看 成 是 一 个 把 世界 的 各 部 分 简化 为 简单 模型 的 过 
程 。 这 个 问题 的 一 部 分 是 将 模型 过 分 简化 ， 而 只 是 为 了 强调 某 一 论据 或 
者 让 复杂 的 系统 易于 理解 。 

我 们 的 做 法 则 是 提供 全 部 细节 让 人 们 直面 真实 测量 的 复杂 性 。 通 过 
在 创建 主 数据 集 时 采取 尽 可 能 透明 的 方式 筛选 数据 记录 ， 我 们 致力 于 在 
复杂 性 产生 的 问题 和 对 清晰 有 用 数据 集 的 需求 间 保持 平衡 。 网 络 存储 空 
间 几 乎 可 以 零 成 本 获得 ， 而 且 有 着 大 量 优质 、 免 费 的 托管 服务 ， 这 使 得 
运行 一 个 公开 的 研究 记录 成 为 了 可 能 。 这 样 就 无 法 再 为 在 文章 中 出 
现 “数据 不 再 一 一 列举 ? 找 理 由 了 。 不 过 要 提供 一 个 完整 的 记录 又 产生 了 
几 个 新 问题 。 

第 一 个 问题 是 简单 的 体积 问题 。 研 究 记录 本 身 往往 是 由 一 系列 不 系 
统 的 文本 和 图 像 组 成 。 并 不 存在 一 个 由 人 类 或 者 机 器 容易 解析 的 通行 标 
准 。 在 将 所 记录 信息 转向 为 人 所 用 的 过 程 中 ， 提 取 和 过 滤 是 必 不 可 少 
的 。 我 们 选择 GDoc 电 子 表格 作为 已 提取 数据 的 主 数据 源 。 自 记录 中 提 
取 数 据 的 过 程 ， 目 前 仍然 是 主观 和 人 为 的 。 电 子 表格 为 人 类 提供 了 一 个 
自然 的 界面 ， 在 个 别 实验 科学 家 看 来 ， 它 同样 为 网 络 服务 提供 了 一 个 有 
效 的 数据 再 加 工 和 展示 界面 。 


























我 们 可 以 考虑 直接 从 实验 报告 中 抓 取 数据 。 使 用 一 些 通俗 格式 和 正 
则 表达 式 分 析 和 转换 ， 从 记录 的 feed 中 读 取 数据 自动 填充 电子 表格 是 可 
能 的 。 我 们 还 没有 做 到 这 点 ， 因 为 我 们 期 竺 在 这 个 阶段 中 有 人 为 筛选 的 
过 程 。 随 着 项 目的 扩大 ， 到 了 一 定 规模 这 样 束 不 行 了 。 在 何 种 规模 引入 
目 动 抓 取 将 取决 于 项 目 、 数 据 类 型 ， 以 及 目前 呈现 的 数据 集 对 与 精度 和 
准 度 的 需求 。 

数据 一 旦 公开 化 ， 它 束 会 对 任何 有 兴趣 的 研究 者 敞开 大 门 ， 而 且 G 
公司 的 Doc API 也 使 得 在 大 范围 的 服务 中 利用 数据 成 为 了 可 能 。 这 其 中 
包括 可 视 化 或 分 析 服 务 。 这 些 服务 将 会 依赖 于 对 电子 表格 数据 结构 的 理 
解 ， 这 意味 着 工具 通常 是 针对 某 个 特定 数据 集 编写 的 。 但 是 ， 即 使 在 这 
种 情况 下 ， 有 效 利 用 大 范围 的 服务 、 数 据 源 以 及 可 视 化 工具 来 造就 高 效 
的 数据 展示 仍 是 直接 可 行 的 ， 这 些 展 示 小 到 表格 和 简单 图 表 ， 大 至 五 
维 、 七 维 甚至 更 多 维 的 可 点 击 界面 。 开 放 的 标准 和 系统 提供 了 把 数据 和 
言 恩 移 动 到 最 有 效 之 处 的 能 力 。 关 于 真正 的 开放 和 目 描述 数据 格式 的 承 
话 是 了 不 起 的 ， 但 是 并 不 现实 ， 即 使 是 像 化 学 这 样 依赖 数据 的 科学 也 一 
样 ， 因 为 以 一 个 实验 者 理解 的 方式 把 记录 恰当 地 翻译 为 系统 的 可 机 读 格 
式 ， 并 要 使 得 编码 的 计算 机 或 者 人 类 也 可 以 理解 ， 这 是 科技 上 和 社会 科 
学 上 都 有 的 困难 。 这 里 我 们 已 经 展示 了 把 电子 表格 (那些 实验 者 所 熟悉 
和 认可 的 ) 的 数据 转换 成 RDF， 不 过 其 他 的 格式 一 样 也 会 很 简单 的 。 

这 样 普 过 的 数据 格式 为 开创 能 够 综合 多 源 数据 的 服务 提供 了 可 能 。 

含 浴 解 度 信 息 ， 或 者 数据 集中 其 他 信息 的 大 范围 数据 源 可 以 集中 进行 























综合 分 析 。 这 就 使 得 ChemSpider 这 样 的 聚合 和 连接 农场 服务 成 为 可 能 ， 
不 仅仅 是 自动 聚合 数据 ， 从 技术 上 已 经 可 以 实现 对 多 源 数 据 所 需 校对 级 
别 进行 判断 ， 并 在 需要 时 引入 人 工 校对 。 这 个 中 心 化 ， 反 过 来 提供 了 一 
个 有 价值 的 索引 服务 ， 而 这 个 服务 提供 了 一 个 在 线 的 中 心 位 置 ， 在 那里 
用 户 能 够 搜 到 他 们 寻找 的 数据 。 我 们 描述 的 所 有 工作 的 中 心 主题 之 一 ， 
在 于 免费 托管 系统 的 使 用 ， 这 个 系统 可 以 在 为 用 户 避 免 复杂 性 负担 的 前 
提 下 提供 足够 多 功能 。 对 大 多 数 的 记录 、 聚 合 、 分 析 、 可 视 化 以 及 展示 
步骤 来 说 ， 这 里 拥有 更 加 先进 、 大 众 或 者 更 加 尖端 的 可 用 工具 。 为 了 记 
录 这 次 研究 ， 我 们 本 可 以 使 用 一 个 商业 电子 实验 室 记录 本 或 者 是 一 个 专 
门 设计 的 在 线 系统 ， 然 而 ， 我 们 选择 了 免费 的 wiki 服 务 。 主 数据 的 呈现 
可 以 使 用 一 个 带 有 内 容 管理 系统 的 数据 库 后 端 来 提供 复杂 的 可 视 化 ; 但 
我 们 选择 了 一 个 在 线 电 子 表格 并 利用 其 JavaScript API 来 展现 一 定 范围 的 
可 视 化 服务 。 虽 然 有 很 多 功能 高 级 和 复杂 的 三 维 可 视 化 环境 ， 但 是 我 们 
选择 了 Second Life。 

我 们 的 部 分 决策 理由 是 费用 。 我 们 使 用 的 所 有 服务 器 都 是 免费 可 用 
的 ， 并 人 允许 本 质 上 无 管理 的 发 展 过 程 有 成 长 的 空间 ， 也 吸引 了 新 的 低 门 
槛 的 合作 者 。 然 而 ， 此 决策 更 多 的 考虑 则 是 运用 一 个 适合 目标 却 不 过 于 
复杂 的 服务 。 在 实验 者 和 理论 及 分 析 型 专家 之 间 构 建 一 个 有 效 的 连接 通 
常 都 是 一 个 挑战 。 将 电子 表格 应 用 为 数据 源 ， 不 仅 能 够 自动 或 人 为 地 转 
换 成 一 个 有 良好 描述 能 力 的 格式 (一 个 正式 的 关系 数据 库 ) ， 或 者 是 一 
个 自 描述 且 可 扩展 的 格式 (RF)， 也 能 简单 地 直接 转换 为 复杂 的 可 视 化 ， 














这 个 应 用 也 阐释 了 为 何 将 电子 表格 作为 结合 点 。 实 验 科 学 家 们 豆 欢 并 且 
理解 电子 表格 。 计 算 科 学 家 们 也 许 更 倾 问 于 文本 格式 ， 或 者 是 可 以 用 代 
人 码 操作 的 数据 库 ， 类 似 XML 和 RDF 的 格式 。 把 这 些 用 户 群 集合 在 一 起 的 
关键 将 是 具备 能 够 自动 进行 格式 来 回转 换 的 能 

最 后 ， 整 个 工程 的 关键 是 信任 和 透明 度 。 由 于 记录 需 转 化 为 数据 ， 
数据 需 转 化 为 信息 ， 而 最 终 信 息 会 被 转化 为 一 个 模型 或 者 理论 ， 在 以 上 
每 一 个 阶段 内 容 都 有 可 能 丢失 。 那 些 通 币 杂乱 无 草 的 细节 ， 在 更 大 的 图 
像 出 现 的 时 候 总 是 被 抛 在 脑 后 。 这 有 征 完全 合适 的 。 科 学 ， 正 是 一 个 以 允 
许 人 们 预见 未 来 的 方式 进行 关 结 观察 的 过 程 。 正 如 我 们 对 服务 的 选择 ， 
一 个 科学 模型 或 者 理论 如 果 可 以 做 到 通常 用 最 少 的 时 间 完 成 实验 ， 那 么 
它 便 是 有 用 的 。 然 而 ， 传 统 上 ， 这 个 总 结 的 过 程 是 以 无 法 探寻 细 市 为 代 
价 的 。 在 网 络 的 世界 里 ， 存 储 是 廉价 的 ， 在 此 不 再 需要 痪 述 。 而 当前 ， 
如 何 做 出 选择 ， 在 于 如 何 展 示 隐 会 的 细节 ， 在 汇总 过 程 中 如 何 过 沽 ， 以 
及 如 何 保持 汇总 结果 和 原始 记录 间 的 链接 。 

这 些 并 不 是 简单 的 决定 ， 我 们 并 不 会 宣称 我 们 百分之百 正确 。 尽 管 
如 此 ， 我 们 相信 这 个 工程 能 够 作为 这 项 尝试 的 样本 。 四 个 月 来 ， 一 个 原 
本 是 火 车 上 两 人 间 的 讨论 已 经 及 展 成 为 一 个 跨国 的 数据 收集 、 可 视 化 以 
及 建 模 坚 试 的 项 目 ， 而 这 些 参 与 者 们 是 实 实在 在 全 部 共 至 所 有 的 数据 和 
分 析 。 如 果 新 的 研究 者 感 兴趣 ， 那 么 合作 可 以 容易 地 得 到 发 展 。 我 们 开 
放 的 数据 和 服务 已 经 创建 了 激发 兴趣 的 新 的 可 视 化 服务 ， 而 且 不 需要 任 
何 实验 者 自身 的 直接 参与 。 这 些 可 视 化 不 仅 对 于 实验 者 是 有 用 的 ， 而 





























H, 自身 也 是 极其 美丽 的 。 不 过 ， 它 们 只 能 再 现任 何人 利用 我 们 发 布 的 
数据 能 够 做 到 的 一 小 部 分 。 同 时 ， 它 们 通常 提供 通 同 充满 瑕 六 和 缺陷 的 
原始 记录 的 链接 ， 人 允许 任何 一 个 用 户 评 定 其 有 效 性 和 他 选择 的 分 辩 紊 下 
的 任意 杀 个 数据 。 

美丽 ， 通 常 被 认为 是 类 似 简约 或 对 称 的 ， 这 是 一 种 用 简单 的 数学 插 
述 便 可 使 全 貌 再 现 的 感觉 。 而 与 此 相 比 ， 现 实 中 的 实验 数据 却 大 相 径 
妊 。 那 些 存 在 或 者 有 时 埋藏 于 实验 数据 中 的 美丽 ， 或 许 需 要 大 量 的 过 滤 
才能 浮现 出 来 。 但 是 ， 大 真正 的 美丽 存在 于 理解 那些 真正 于 世界 最 深 处 
发 生 的 事情 之 中 ， 只 要 我 们 可 以 ， 那 么 我 们 就 能 够 仅仅 依据 已 知 的 分 析 
来 发 党 那 有 限 的 一 点 点 美丽 。 通 过 提供 尽 可 能 多 的 记录 ， 我 们 可 以 让 其 
他 研究 者 发 现 和 揭示 更 多 埋藏 在 表面 深 处 的 美丽 之 路 更 加 平坦 。 
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第 17 草 ”数据 浅 析 : 探索 形形色色 的 社会 定型 


Brendan O'Connor 和 Lukas Biewald 


我 们 如 何 感知 年 龄 、 性 别 、 智 商 和 魅力 ? 我 们 如 何 从 形形色色 匿名 
的 观点 中 获取 洞察 力 ? 去 年 ， 我 和 Chris Van Pelt 一 起 构建 了 网 站 
FaceStat.com， 在 该 站 点 中 ， 用 户 可 以 上 传 他 们 自己 的 照片 ， 以 及 浏览 
和 评判 其 他 人 的 照片 〈 见 图 17-1) 。 令 人 惊讶 的 是 ， 该 站 点 变 得 很 流 
行 。 超 过 10 万 勇敢 的 用 户 上 传 了 他 们 自己 、 朋 友 、 亲 威 、 仇 人 的 照片 
等 ， 而 且 收 集 了 关于 比如 以 下 几 个 预定 问题 的 1000 多 万 个 评论 : 

-我 看 起 来 多 大 了 ? 

-你 觉得 我 看 起 来 是 否 很 帅 ? 

你 觉得 我 和 一 只 中 等 体型 的 狗 打 洒 能 太 吗 ? 

:用 一 个 词 描 述 我 。 

我 们 称 这 些 问 题 为 “多 元 的 Hot-or-Not”。 

心理 学 和 社会 学 的 研究 人 员 已 经 广泛 地 研究 了 定型 (sereotype) 以 及 我 
们 的 外 表 如 何 影响 别人 对 我 们 的 看 法 。 但 是 没有 人 可 以 访问 来 自如 此 多 
样 化 群体 的 如 此 庞大 的 数据 。 该 数据 比 传统 的 实验 研究 要 丰富 得 多 ， 但 
是 庞大 的 数据 是 否 能 够 弥补 对 数据 的 控制 力 缺乏 问题 ?实际 上 ， 真 实 世 
界 的 数据 可 能 是 最 有 局 发 性 的 : 认为 自己 在 做 游戏 的 人 比 起 一 个 在 心理 
学 入 门 课程 上 参与 一 个 调查 的 大 二 学 生 会 更 诚实 。 














YIOG | Try ShoeStat | Vai wet Cure 


facestat 


My Faces My Friends Judge Rant Br 











图 17-1: FaceStat 的 评判 界面 ( 见 彩 图 58) 

我 们 喜欢 探索 大 量 的 数据 集 。 我 们 要 寻求 的 是 有 趣 的 模式 和 关联 ， 
而 不 是 去 验证 预想 的 各 种 假设 。 我 们 不 会 试图 隐瞒 或 者 掩饰 杂乱 的 游离 
点 和 缺失 值 ， 相反， 我 们 将 公开 显示 我 们 被 迫 所 做 出 的 各 种 选择 。 我 们 
不 会 对 种 种 定型 做 出 评论 或 者 下 有 和 争议 的 结论 一 一 让 数据 来 说 话 吧 。 








预 处 理 数据 


我 们 从 头 开 始 : 像 很 多 网 站 一 样 ，FaceStat 运 行 在 一 个 SQL 数 据 库 

上 。 评 判 界面 记录 用 户 的 评论 并 把 它们 作为 一 个 三 元 组 (fce 
ID,attribute,judgment) 保 存 起 来 。 我 们 做 的 第 一 件 事 是 从 数据 库 中 抽取 
1000 万 条 记录 。 它 生成 一 个 如 下 的 文件 : 








face id key value 

149777 describe serious 
18717 trustworthy 3 
140467 attractive 2 
149777 describe five-head 














我 们 对 探索 不 同类 型 的 感知 属性 之 间 的 关系 感 兴趣 。 一 个 有 趣 的 问 
题 是 “我 看 起 来 多 大 了 ? ”第 一 件 要 做 的 事 是 看 人 们 给 出 的 回复 。Unix 命 
令 行 工 具 使 得 快速 查看 人 们 的 回复 直方 图 变 得 非常 简单 。 最 第 见 的 回复 
看 起 来 是 合理 的 年 龄 ， 但 是 我 们 也 发 现 了 一 个 问题 : 














Look at$cat data.tsv| 

age judgments'grep"age"| 

values cut-f3| 

and count how many times sort| 
each value occurs,uniq-c| 

and order by this count.sort-nr 








以 下 是 这 个 shell 管 道 的 输出 。 对 于 每 一 行 ， 第 一 个 数字 是 频率 计 
数 。 第 二 个 字符 串 是 回复 值 一 一 是 人 们 针对 问题 "我 看 起 来 多 大 了 ? "在 
Web 表 单 中 输入 的 回复 。 经 常 出 现 的 情况 是 用 户 输入 了 一 个 数字 ， 但 是 





有 时 存在 一 些 问题 : 








2717\r\n 





1 old enough to know better 
1 hopefully over 21 

















FaceStat 已 经 运行 了 8 个 月 ， 而 且 经 历 了 很 多 变化 ， 因 此 数据 是 在 不 
同 的 情况 下 收集 的 。 一 些 奇 怪 的 网 页 浏览 器 会 增加 行 结束 空白 符 \rn。 
有 时 存在 bug， 用 户 输 入 文本 形式 的 回复 以 及 一 些 其 他 格式 有 问题 的 数 
据 。 看 看 在 sortluniq-clsort-nr 之 后 ， 直 方 图 的 最 底部 的 数据 值 ， 就 可 以 很 
容易 地 暴露 出 数据 上 存在 的 bug， 因 为 它们 通常 会 展现 为 游离 点 。 我 们 
需要 写 一 些 正 则 表达 式 ， 它 可 以 清除 这 类 格式 有 问题 的 值 。 

详细 描述 所 有 的 数据 合理 性 检查 和 数据 清除 会 显得 很 繁琐 ， 但 是 它 
们 是 任何 数据 分 析 重 要 的 第 一 步 。 对 于 任何 人 工 生 成 的 数据 集 ， 必 定 存 
在 一 些 杂 乱 的 游离 点 。 比 如 ， 有 人 发 现 了 如 何 绕 过 选择 哪 张 脸 来 评论 的 
随机 性 ， 把 一 张 脸 标 注 了 100 多 次 “mr.cool”。 

除了 清除 之 外 ， 对 于 该 特定 数据 集 的 一 些 重要 的 决策 是 ， 1) 如 何 把 
多 选 的 回复 如 “很 值得 信任 ”和 “不 值得 信任 ”映射 为 一 个 数值 ，2〉 如 何 




















把 很 多 人 对 一 张 脸 的 很 多 回复 聚集 成 一 个 描述 。 每 张 脸 在 一 些 不 同属 性 
上 有 大 约 几 百 个 评价 。 我 们 将 简单 地 对 数值 评价 求 平 均值 。《〈 在 这 种 规 
范 下 ， 我 们 忽略 文本 描述 ， 在 后 面 会 提 到 。) 因此， 每 张 脸 包 含 感觉 


的 年 龄 、 知 商 等 因素 的 均值 。 它 看 起 来 如 表 17-1 所 示 。 


表 17-1: 每 张 脸 的 数据 


男性 
TRUE 
TRUE 
TRUE 
FALSE 
FALSE 
TRUE 
TRUE 
FALSE 
| TRUE 
TRUE 


年 龄 


24.26667 
47.00000 


29.27273 


17.63636 
19.58333 


22.80953 


29.77778 


18.16667 


46.60000 
52.06667 


| 智商 
NA 


3.400000 


2.700000 


3.111111 


NA 


NA 
1.833333 


NA 


3.200000 


3.000000 


| 魅力 
| 2.800000 
| 2.120000 
2.083333 
| 2.428571 
| 2.750000 
| 2.250000 
| 1.900000 
| 2.571429 
| 2.120000 


2.080000 


| 警察 关系 


NA 


3.2 
1.8 


NA 


NA 
NA 
NA 


NA 


3.4 


NA 





总 而 言 之 ， 有 成 和 干 上 万 的 脸 ， 包 含 20 多 种 不 同 的 属性 。 有 很 多 缺失 
些 警告 ， 我 们 可 以 把 数据 加 载 到 
某 个 包 里 进行 更 详细 的 分 析 。 如 果 你 想 深 入 了 解 ， 我 们 已 经 生成 了 数据 
子 集 ， 在 http: //data.doloreslabs.com 可 以 获取 有 用 的 代码 。 


值 : 询问 不 同 的 人 不 同 的 问题 。 


有 了 这 


探索 数据 





有 很 多 不 错 的 数据 分 析 工 具 。 表 17-2 对 一 些 最 常见 的 工具 进行 了 比 
较 。 


表 17-2: 数据 分 析 包 的 比较 








名 字 优点 | 缺点 | 是 否 开源 | 典型 用 户 
R 座 支持 ， 可 视 化 “| 很 陡 的 学 习 曲 线 是 | 统计 学 
| Matlab | 优雅 的 矩阵 支持 ， | 代价 高 ， 统 计 支持 不 全 | 否 | 工程 

| 可 视 化 | | | 
SciPy/NumPy/ | Python: 灵活 通用 | 各 个 组 件 集成 很 差 是 LR 
Matplotlib 的 编程 语言 
| Excel | 简单 、 可 视 、 灵 活 “| 大 数据 集 、 弱 数值 和 | 否 | 商业 
| | LE | | 
SAS 很 大 的 数据 集 |E 常 复杂 ， 学 习 代价 最 高 | 否 商业 
SPSS, Stata | 简单 的 统计 分 析 | 不 灵活 [a | 科学 (生物 学 


和 社会 学 ) 





我 们 喜欢 使 用 工具 R， 它 是 一 个 开源 的 统计 和 可 视 化 编程 环境 ， 包 合 
活跃 的 并 且 不 断 增长 的 开发 社区 。 它 在 统计 学 中 作为 一 种 事实 标准 而 产 
生 。 为 了 广泛 的 数据 分 析 ， 比 起 其 他 数据 分 析 包 ， 我 们 更 喜欢 R 工 具 
包 ， 因 为 它 的 图 形 库 、 便 捷 的 索引 标注 以 及 一 组 优秀 的 复杂 统计 和 社区 
维护 包 。 你 可 以 看 看 该 软件 ， 在 http: /www.r-project.org 可 以 下 载 ， 并 
查看 一 下 本 章 最 后 关于 它 的 参考 资料 。 

R 提 供 了 很 多 优秀 的 工具 来 查询 数据 的 内 在 涵义 。 通 过 交互 式 注释 : 











Load the data> 
data-read.delim ("http: //data.doloreslabs.com/face scores.tsv", 
sep="\t") 

and plot.>plot (data) 














给 定 记录 的 基本 表 ，R 的 默认 描绘 动作 是 为 我 们 提供 每 个 变量 组 的 散 
点 图 矩阵 〈 见 图 17-2) 。 一 个 很 突出 的 方面 是 其 年 龄 关联 看 起 来 很 滑 移 
一 一 最 右 一 列 和 最 下 面 一 行 。 
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图 17-2: 脸 部 数据 的 初始 散 点 图 矩阵 
我 们 需要 调查 。 - 件 需要 做 的 事 是 查看 年 龄 值 的 分 布 〈“ 见 图 17- 
3J 5 


























hist (dataSage) 


Select records with age greater than 100. > data[which(data$age > 100), ] 


id 评价 数量 年 龄 EWI 魅力 智商 
40623 150 402.3333 TRUE 2.416667 NA 
57021 133 47882.3010 TRUE NA NA 
66441 197 66666692.0000 TRUE NA NA 


图 17-3: 脸 部 数据 年 龄 分 布 的 初始 直方 图 
这 看 起 来 不 正常 。 由 于 存在 游离 点 ，x 轴 已 经 横 癌 伸 长 到 7000 万 。 我 
们 一 起 来 看 包含 游离 点 的 年 龄 值 的 记录 : 








Select records with age greater than 100. -data[which(data$age- 
100), ] 








原始 数据 的 年 龄 分 布 直方 图 
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在 初期 ， 我 们 清除 了 非 数 值 的 年 龄 值 ， 但 是 没有 检查 过 分 高 的 值 。 
现在 ， 最 简单 的 操作 方式 是 删除 这 些 游 离 点 。 如 果 你 之 前 从 未 使 用 过 一 





种 数据 分 析 语 言 ， 注 意 R 的 丰富 的 下 标 标 注 ， 它 使 得 基本 的 探索 和 消除 
变 得 简单 有 趣 : 





Subselect rows with age less than 100. > 
clean data=data[which (data$age<100) ，] 








我 们 再 一 次 检查 了 直方 图 〈 见 图 17-4) 发 现 我 们 的 绝 大 多 数 用 户 是 
(或 者 看 起 来 是 ) 18 一 30 岁 ， 这 看 起 来 很 合乎 情理 。 








清除 后 的 数据 的 年 龄 分 布 直方 图 
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图 17-4: 清除 后 的 脸 部 数据 的 年 龄 分 布 直方 图 


年 龄 、 魅 力 和 性 别 


我 们 想 要 放大 一 些 观 察 到 的 最 有 趣 的 属性 : 年 龄 、 性 别 和 魅力 。 每 
当 我 们 用 一 个 表 来 包含 一 些 有 趣 的 字段 ， 把 数据 作为 一 个 散 点 图 展现 出 
来 通常 是 非常 直观 且 信 息 量 丰 富 〈 见 图 17-5》: 

















Draw a scatterplot of age vs.attractiveness, > 
plot (dSage, dSattractive, 

using gender to define the 
points'colors.col=ifelse(d$male, 'blue', 'deeppink') ) 

















该 散 操 图 包含 提示 作用 。 举 个 例子 ， 女 人 似乎 比 男人 更 有 魅力 。 但 

是 很 难 对 任何 事情 有 一 个 确定 的 答案 ， 因 为 成 二 上 万 的 点 描绘 时 互相 交 
登 在 一 起 。 当 数据 过 载 时 ， 散 后 图 可 能 会 有 误导 作用 。 处 理 该 问题 的 一 
种 方法 是 平滑 数据 ， 通 过 画 佑 计 的 分 布 图 而 不 是 点 本 刁 《〈 见 图 17-6) 。 
我 们 使 用 称 为 核 密 度 估计 (krnel density estimation) 的 标准 技术 。 














Lay out side-by-side plots.>par(mfrow=c (1, 2) ) 
For males and females, >dm=d[dSmale, ]; df-d[d$female, ] 
draw smoothed plots, >smoothScatter (dfSage,dfSattractive, 
with a color 

gradient, colramp=colorRampPalette(c ("white", "deeppink") ) , 
and aligned axes.ylim=c (0, 4) ) 
>smoothScatter (dmSage, dmSattractive, 
colramp=colorRampPalette(c ("white", "blue") ) , ylim=c (0, 4) ) 


二 一 


























d$attractive 
1.5 20 2.5 3.0 3.5 4.0 


1.0 





图 17-5: 魅力 和 年 龄 关系 的 散 点 图 ， 通 过 性 别 进行 着 色 (1H B59) 
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Ej 17-6: 魅力 和 年 龄 关系 的 平滑 散 点 图 ， 每 个 性 别 一 个 图 〈 见 彩 图 


60) 
我 们 还 可 以 试 着 把 它们 放 到 同一 张 图 上 《〈 见 图 17-7) : 








> 

smoothScatterMult (dSage, dSattractive, d$male,blendFun=bl burn, colramps: 
c(colorRampPalette(c ("white", "red") ) ， 

colorRampPalette(c ("white", "blue") ) ， 
colorRampPalette(c ("white", "green") ) ) , pch="", nrpoints=10000) 





Q 
+ 


3.5 


3.0 
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图 17-7: 魅力 和 年 龄 关系 的 平滑 散 点 图 ， 通 过 性 别 着 色 ， 在 一 张 图 上 
X ES ( 见 彩 图 61) 

这 些 图 形 显示 了 数据 的 完全 分 布 ， 但 是 很 难看 出 其 中 的 模式 。 举 个 

例子 ， 年 龄 如 何 影响 魅力 ? 通过 计算 总 结 统一 和 绘制 它们 更 容易 看 出 这 





= ( 见 图 17-8a) o 





For males -^dm-d[which(dS$male); ] 

and females, >df=d[which(dSfemale), ] 

average across faces "male avg by year-by (dmS$attractive, 
within bins cut(dm$age,breaks-0: 80) , mean) 
(oe per year) -^female avg by year=by(dfSattractive, 

then cut(df$age,breaks-0: 80) , mean) 

plot them >plot(male_ avg by year,col='blue') 

all together. >points(female avg by year,col='deeppink') 









































这 个 图 可 以 开始 描述 一 个 故事 了 ， 但 还 是 有 点 难以 理解 。 有 些 点 是 
成 千 上 万 张 脸 当 中 的 平均 年 龄 值 ， 而 有 些 年 龄 更 大 的 点 来 自 少 量 的 观 
察 。 因 此 ， 图 的 右 侧 有 更 多 的 噪音 数据 ， 因 为 样本 更 小 。 

我 们 给 该 图 增加 了 两 个 特征 《〈 见 图 17-8b) 。 首 先 ， 我 们 计算 了 959%6 
的 置信 区 间 ， 确 保 我 们 不 是 欺骗 自己 去 看 来 自 于 噪音 数据 的 模式 。 置 信 
区 间 是 通过 我 们 有 限 的 数据 来 估计 可 能 的 均值 范围 的 一 种 方式 。 其 次 ， 
我 们 将 拟 合 局 部 加 权 回 归 (lcally weighted regression,LOESS) 曲 线 ， 从 而 
有 助 于 对 这 种 噪音 序列 数据 的 聚集 模式 进行 可 视 化 。 通 常 ， 我 们 可 能 会 
对 数据 进行 线性 回归 ， 但 是 该 数据 不 是 线性 的 ， 而 且 看 起 来 不 像 我 们 所 
知道 的 任何 一 个 函数 。 局 部 加 权 回 归 函 数 是 拟 合 任意 曲线 到 数据 的 一 种 
方法 。 它 基本 上 是 执行 代价 高 的 移动 平均 值 。 该 图 还 不 够 完美 。 图 的 两 
边 有 一 些 点 包含 一 个 或 者 两 个 可 以 计算 置信 区 间 的 样本 。 如 果 你 查看 图 
17-4 的 年 龄 直方 图 ， 这 些 并 不 奇怪 一 一 看 起 来 超过 50 岁 的 人 们 只 占 数据 
集 的 1.7%。 而 且 ， 很 多 置信 区 间 很 大 ， 以 至 于 它们 的 数据 点 不 是 很 有 意 
义 。 因 此 ， 对 于 包含 很 少数 据点 的 区 域 一 特别 年 轻 的 和 年 老 的 一 一 我 
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( 见 图 17-8c) 。 
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图 17-8: 魅力 和 年 龄 以 及 性 别 的 关系 的 三 种 迭代 绘图 : a) 平均 值 
在 桶 内 区 间 的 每 个 年 龄 ; b) 每 个 桶 95% 置 信 区 间 ， 以 及 局 部 加 权 回 归 
曲线 ; c) 更 大 的 桶 ， 其 中 数据 更 黎 疏 〈 见 彩 图 62) 

一 般 来 说 ， 在 所 有 年 龄 段 中 ， 除 了 人 婴儿 ， 女 人 被 认为 比 男 人 更 有 魅 
力 。 我 们 发 现 婴 儿 被 认为 是 最 有 吸引 力 〈 魅 力 ) 的 ， 但 是 该 吸引 力 随 痢 
年 龄 增长 而 下 降 ， 直 到 18 岁 左右 (可 能 用 户 对 判定 青少年 为 “有 魅力 ”的 
党 得 不 太 目 在 ? ) ， 然 后 魅力 又 开始 上 升 ， 在 27 岁 达到 最 高 值 。 在 那 以 
后 ， 魅 力 值 随 着 年 龄 下 降 ， 直 到 50 岁 ， 在 50 岁 年 龄 点 ， 魅 力 值 似乎 又 开 
始 上 升 。 但 是 很 难 确定 ， 因 为 大 于 50 岁 的 数据 非常 稀 琉 。 

当然 ， 对 于 20 岁 左右 的 非 文 本 属性 ， 存 在 很 多 关系 需要 探索 。 我 们 
可 以 描绘 更 多 类 似 于 图 17-8 的 图 ， 但 是 我 们 能 否 马 上 看 到 所 有 有 趣 的 交 
H? 我 们 还 是 采用 两 两 交互 的 方法 ， 改 变 之 前 描绘 的 两 两 结对 图 。 我 们 
不 是 在 每 个 面板 使 用 散 点 图 ， 而 是 显示 单一 色彩 表示 属性 之 间 的 全 局 关 














联 。 蓝 色 是 正 向 关联 ， 而 红色 是 负 疝 关联 ( 见 图 17-9)。 





First compute pairwise correlations, >cors=cor (d, use='pair') 

and order the attributes to try to ord=order.hclust (cors) 

put similar attributes next to each other. ->cors=cors [ord,ord] 

Plot the correlation matrix; image (cors, col=col.corrgram (7) ) 

with axis labels. axis (1, at-seq (0, 1, length=nrow(cors)) ， 
labels-row.names (cors) ) 
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* 衣服 尺寸 ; 我 的 衣服 尺寸 是 多 少 ? 

* £$. 如 果 你 是 一 名 机 场 安检 光 警 ， 你 会 检查 我 吗 ? 
+ HE: 你 喜欢 我 的 外 套 凤 ? 

+ Vh. 我 是 否 需 要 改造 ? 

* 发 型 ， 你 喜欢 我 的 发 型 四 ? 

* 年 龄 : 我 多 大 了 ? 

+ 体重， 我 有 多 重 ? 

* KURIER. RORHERRHL? ( 越 高 越 保守 ) 
， 整 形 手术 ; 我 是 否 做 过 整形 手术 ? 

， 性 烦 向 我 的 性 倾向 是 什么 ? 【〔 值 越 离 越 有 可 能 是 同性 态 ) 
: 85, 我 有 多 大 风力 ? 

+ EA, 我 有 多 富有 ? 

* SHES. 我 是 否 〔 或 者 将 案 是 天 会 ) 显得 年 轻 ? 
* AE: 我 是 否 有 才华 ? 

+ BH: 我 有 多 聪明 ? 

* 值得 信任 ， 我 值得 信任 的 程度 有 多 高 ? 

+ ABR: 你 觉得 我 是 否 能 打 过 一 只 中 等 大 小 的 物 ? 
+ RR. RARAN 

+ OR. RAS? 





图 17-9: Pearson *ž REY, REFRYN BEM Fe ELIT MAA RE 
向 关联 ， 而 红色 方块 的 属性 对 和 下 降 的 斜 线 是 逆 相 关 ( 见 彩 图 63) 

该 绘图 缠 涵 了 很 多 有 趣 的 关联 信息 ， 这 些 关 系 值得 进一步 调查 : 

:女人 被 认为 比 男人 更 聪明 。 

-女人 被 认为 更 有 可 能 在 和 狗 打 架 中 胜出 。 

衣服 尺寸 和 体重 只 是 弱 相 关 。 

“女人 更 有 可 能 被 雇佣 为 安全 巡 管 。 

:那些 看 起 来 做 过 整容 手术 的 人 被 雇佣 为 安全 巡警 的 概率 更 小 。 

值得 信任 、 陪 明 、 有 才华 、 显 得 年 轻 、 定 有 和 保守 之 间 都 两 两 天 


联 。 一 条 “责任 心 : 轴 ”? 
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除了 所 有 顺序 和 数值 的 数据 ， 我 们 包含 一 组 自由 格式 的 标签 ， 用 户 
能 够 输入 人 的 照片 。 标 签 范 围 从 描述 性 的 (“省 病 "、“ 锚 子 带 环 ”) 到 粗 
fam CHAE EPRI? “UHR HO”) 到 友好 的 (“你 穿着 红色 的 衣服 
很 漂亮 >) 到 建议 性 的 (“ 修 修 头 发 "-、“ 避 免 在 太阳 下 暴晒 *) 到 评论 性 
的 《〈“ 太 让 人 惊叹 了 ! ”、“Nancy， 够 了 ! ”) 到 卑鄙 的 《〈“ 那 个 肥胖 的 朋 
友 ”) 到 没有 意义 的 〈“..…….” “plokmnjiuhbygvt fcrdxeszwaq”) 。 通 常 
来 说 ， 自 由 格式 的 文本 数据 处 理 上 更 复杂 。 第 一 件 要 做 的 事 是 检查 标签 


的 分 布 。 最 常见 的 标签 是 什么 ? 

















Load our tags >face tags-read.delim ("face tags.tsv", sep="\t", 
as.is=T) 

then count >counts=table(face tags$tag) 

and rank them. >sorted_counts=sort (counts, decreasing=T) 

Show the most common tags. sorted counts[1: 20] 




















以 下 表 包 含 了 输出 结果 。 


cute pretty happy nice fun young 
81333 40954 36263 33221 30622 27900 
sweet friendly cool weird hot gay 
20362 14895 14709 12731 12662 12409 
Cute funny scary sexy old goofy 
12132 11508 11445 11287 10958 10511 
emo shy 

10292 10207 
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Show the least common tags. >tail(sorted_ count, 20) 





überdude übersót ünsall 
1 1 1 
your.nose.is.sexymamama! ! 我 p. 

1 1 1 

E ? Phaiir!! 
1 1 1 

BA NS = 

1 1 i 

WAA 757 Dnvuy— 
1 1 1 

euKyB CUeeT XEpHA 

1 1 1 
F-2AARAF— Kpacusan! 


查看 一 些 标签 会 对 范 化 有 问题 。“cute”* 和 “Cute” 是 否 应 该 归并 为 相同 
的 标签 ? 标点 符号 是 否 应 该 全 部 丢掉 ?看 起 来 很 滑 重 的 亚洲 字体 的 全 和 角 
问号 〈?) 是 否 应 该 认为 和 ASCII 的 问号 (?) 一 样 ? 显然 ， 这 取决 于 应 
用 。 只 要 可 能 ， 我 们 的 本 能 是 慎之 又 慎 ， 保 留 原始 数据 的 完整 性 。 这 保 
护 了 信息 ; 举 个 例子 ， 标 签 “hot* 和 “HOT! ”肯定 包含 不 同 的 语义 内 容 。 
通常 ， 当 针对 特定 的 可 视 化 或 者 分 析 ， 对 数据 进行 归并 是 更 容易 的 ， 而 
不 是 提前 猜测 所 有 的 需求 ， 并 且 被 强迫 撤销 所 有 值钱 的 范 化 决策 。 
标签 分 布 的 基本 绘图 查看 的 是 标签 的 频率 相对 于 其 频率 的 排序 。 通 
常 来 说 ， 当 对 单词 或 者 其 他 词汇 项 进行 计数 时 ， 我 们 看 到 的 是 从 最 频繁 
出 现 的 单词 很 快 下 降 到 最 不 频繁 出 现 的 单词 。 在 我 们 的 数据 ， 总 共有 
240 万 的 标签 ， 其 中 有 29 万 个 唯一 标签 。 最 高 的 1000 个 唯一 标签 出 现 频 
率 是 140 万 竺 这 些 标签 的 出 现 频率 中 ， 有 
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签 “cute” 出 现 了 3.6 万 次 ， 而 第 二 第 见 的 标签 "pretty” 出 现 的 频率 只 有 它 的 
SE 





For the top 1, 000 tags, >s=sorted counts[1: 1000] 
draw a plot of their counts. >barplot (s) 











1935 年 ， 语 言 学 家 George Zipf wl £x $1 i5] 4914) p 3 (8 ^38: RR BE 
42” (pwer law)， 其 中 第 n 个 单词 的 频率 和 〈1ms) 成 正比 ， 其 中 s 是 个 名 
量 。 和 高 斯 分 布 不 同 ， 该 分 布 包含 有 限 的 变量 ， 这 使 得 它 不 适合 于 茶 些 
统计 算法 。 流 行 的 书 如 Nassim Nicholas Taleb 的 《The Black Swan) 











(Rndom House 出 版 ) 和 Chris Anderson} <The Long Tail》(Hperion 出 
版 使 得 这 些 分 布 分 别 以 “ 重 尾 ”和 “长 尾 ” 分 布 而 著名 。 实 际 上 ， 我 们 的 
数据 包含 一 条 很 长 的 长 尾 : 22 万 个 单词 ， 或 者 词汇 的 76% 只 出 现 一 次 。 


标签 的 频率 和 频率 排序 最 高 的 1 000 个 标签 
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出 现 频率 
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图 17-10: 出 现 频率 最 高 的 1000 个 标签 的 标签 频率 


过 在 对 数 空 间 描绘 我 们 的 单词 的 出 现 频率 图 ， 我 们 可 以 查看 这 些 
单词 出 现 的 频率 是 否 满 足 窜 函数 定律 分 布 〈( 见 图 17-11) : 








Plot log ranks >log_ranks=log (1: length(sorted counts)) 
against log frequency. plot(log ranks,log(sorted counts) ) 








词 频 对 数 和 排序 对 数 
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排序 有 序 的 标签 
图 17-11: 通过 对 数 排序 的 标签 的 对 数 频率 ， 包 含 辕 函数 定律 模型 的 拟 
合 线 


肾 函 数 定律 分 布 在 对 数 -对 数 空间 上 ， 看 起 来 应 该 是 线性 的 : 








Fit a model of log count against log rank > 
model=lm(log(sorted counts)--log ranks) 
and draw it on Figure 17-10.  -abline (model) 








PATA EWE EE RE C1/n9). 分 布 。 (如果 你 觉得 它 看 起 来 
像 最 佳 拟 合 线 ， 记 住所 有 点 的 76% 是 在 数据 的 最 右 下 侧 的 边 上 ) 


如 果 你 在 任何 文本 一 一 报纸 、 小 说 、Web 页 面 等 上 描绘 这 种 对 数 -对 
数 频率 的 绘图 一 一 它 看 起 来 都 很 相似 由。 当然 ， 当 FaceStat 的 用 户 写 描 
述 标签 时 ， 它 们 参与 的 是 一 种 语言 行为 ， 这 种 行为 和 其 他 类 型 的 人 类 通 
信 在 本 质 上 很 相似 。 

这 些 标 签 如 何 拟 合 剩 余 的 数据 ?” 第 一 步 需要 做 的 是 从 标签 中 随机 选 
取样 本 ， 在 我 们 已 经 生成 的 绘图 上 绘制 〈《 见 图 17-12) 。 


MollyMaid? 





图 17312: 基于 平滑 后 的 魅力 与 年 龄 描绘 的 标签 样本 图 ( 见 彩 图 64) 
在 该 图 中 ， 深 暗色 表示 政治 背景 和 魅力 的 密度 的 全 局 分 布 。 单 词 是 
从 分 布 中 随机 抽样 出 来 的 。 赣 色 词 表示 男性 标签 ， 粉 色 词 表示 女性 标 


签 。 这 么 做 可 以 使 我 们 感 党 到 标签 是 否 和 图 中 的 变量 一 致 。 数 据 看 起 来 
很 合理 ， 标 签 “ 平 均 ” 显 示 在 图 形 的 中 央 ， 而 被 标记 为 "接近 顶尖” 的 人 显 
示 在 “自由 /魅力 ”象限 ， 而 标记 为 “ 土 里 土气 的 ” 则 是 在 “保守 /丑陋 ” 象 

限 。 该 图 可 以 通过 不 同 的 随机 种 子 生成 多 次 ， 可 以 查看 全 局 数据 的 标签 
分 布 。 


[1]Zipf,George.1935. «The Psychobiology of Language》(MT 出 版 社 ) A 








见 http: //en.wikipedia.org/wiki/Zipf's_law. 





哪些 单词 具有 性 别 化 








很 多 社会 理论 学 家 考虑 性 别 在 语言 中 的 不 同 显示 的 程度 如 何 。 我 们 
的 数据 集 使 得 可 以 从 单词 层次 探索 这 一 点 : 我 们 可 以 发 现 哪个 标签 是 男 
性 脸 孔 或 者 女性 脸 孔 的 最 显著 的 特征 。 我 们 可 以 统计 出 对 于 男性 出 现 最 
频繁 的 单词 ， 以 及 对 于 女性 出 现 最 频繁 的 单词 ， 但 通常 来 说 ， 这 只 能 获 
取 在 任意 地 方 出 现 频率 都 很 高 的 单词 。 一 种 更 好 的 方式 是 通过 对 性 别 间 
出 现 频率 的 标签 进行 打分 。 也 就 是 说 ， 为 了 确定 标签 T 表 示 性 别 G 的 特 
征 性 ， 看 以 下 表达 式 : 

性 别 是 G 的 脸 的 标签 7 的 出 现 次 数 
标签 7 出 现 的 总 次 数 

这 个 表达 式 有 个 缺陷 : 出 现 频率 很 低 的 标签 会 带 来 噪音 数据 。 举 个 
例子 ， 任 何 只 出 现 一 次 的 标签 ， 它 表示 的 性 别 就 得 到 满分 1〈 这 是 由 于 
样本 数据 量 小 造成 的 错误 ， 我 们 称 之 为 稀 玻 年 龄 权 ) 。 解 决 该 问题 的 一 
个 简单 的 方法 是 设置 词 频 阔 值 。 在 这 种 情况 下 ， 我 们 只 碍 看 出 现 次 数 大 
于 100 次 的 标签 。 

计算 这 些 分 值 一 一 用 统计 学 术语 来 说 ， 它 们 是 条 件 概率 Pr(GIT) 的 
最 大 可 能 估计 一 一 我 们 可 以 获得 如 下 一 些 最 大 可 能 估计 值 表 。 

最 具有 男性 特征 的 单词 如 下 表 所 示 。 














最 





Term 
wey e [m [sem 
my Jas [us — [sw — 


0.9909910 


0.9867550 


( 续 ) 


scruffy 
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\ 有 女性 特征 的 单词 如 下 表 所 示 : 





[. s 

TNI NNNM NN 
De [xp [ommo 

e — = e — — [onem ——— 

fa p (em | 

im um — qum [ree 
DW Er 


motherly 1.0000000 


308 0.9967532 


x 0.9944444 


fortis 14 0.9912281 


0.903783 
cheerleader 0. I1 —— 
boobs 0.9870968 


m — [m fe — — eme — — 
hay ae pm [esu 
me ]m — p. — [gem 5 5 
i — |e — — jur — — isa — —] 


可 能 令 人 惊讶 的 是 这 些 单词 如 “handsome”( 英 俊 ) . “gamer” CE 
4E) ~. “Bubbly” GMR) Msl” CRH) 是 多 么 地 具有 性 别 化 特征 。 
它们 几乎 总 是 和 它们 所 表示 的 性 别 一 起 出 现 。 

















数据 中 的 人 们 有 哪些 典型 类 型 ? RR ee PB IP CK B Ei 
方法 。 聚 类 算法 通过 将 相似 的 实例 分 组 在 一 起 ， 从 而 把 数据 点 分 成 几 种 
特征 类 。 聚 类 有 很 多 方法 ， 但 是 最 流行 和 简单 的 方法 称 为 K 均 值 肾 类 
CK-means) 方 法 。 在 K 均 值 聚 类 方法 中 ， 每 个 聚合 有 一 个 中 心 点 ， 称 
为 “质心 ”(cntroid)。 在 数据 中 找到 一 些 不 同 的 质心 ， 每 个 数据 点 被 分 配 
给 一 个 质心 。 该 算法 达 代 调整 聚合 ， 这 样 使 得 尽 可 能 多 的 数据 点 靠 近 分 
配给 它们 的 质心 。 

在 我 们 的 数据 集中 ， 每 张 脸 大 约 有 20 个 数值 属性 。 因 此 ， 脸 部 束 是 
在 20 维 空间 的 把 。K 均 值 聚 类 方法 会 把 脸 孔 放 到 该 空间 的 不 同 的 聚合 ， 
试 者 选择 聚合 ， 使 得 脸 孔 可 以 尽 可 能 地 和 筷 们 所 在 的 聚合 的 中 央 相 似 。 

K 均 值 聚 类 算法 不 好 的 一 点 是 你 必须 选 定 固定 值 的 聚合 个 数 
一 一 ' 工 "”。 然 而 ， 不 存在 很 明显 的 方式 来 选择 聚合 的 个 数 。 需 要 做 的 最 
好 的 事 是 尝试 集中 不 同 的 个 数 ， 查 看 出 现 了 什么 模式 。 以 下 是 运行 K 均 
值 分 类 算法 的 一 个 合理 输出 : 
































Preprocess the data, >norm data=apply(d, 2, function (x) { 
by changing missing values to the 

mean, x[is.na(x) ]=mean(x,na.rm=TRUE) 
and unit-normalizing values, x= (x-mean(x)) /sd(x) 
which usually makes k-means work better.x}) 
Then run k-means for 5 clusters, >clus=kmeans(norm data, 5) 
and plot attractiveness vs.age, —plot(d$age,dS$attractive, 
but color by col=c ("red", "purple", "blue", "orange", 
cluster assignment, "green", "darkturquoise") [clus$cluster], 

















and have fun with unicode.pch=ifelse(d$male, '\u2642', 'Nu2640') D 














散 点 图 的 点 表示 脸 部 ， 点 的 颜色 和 它们 被 分 配 的 聚合 一 致 。 我 们 将 
显示 在 魅力 和 年 龄 空间 内 的 脸庞 ， 如 我 们 之 前 的 绘图 一 样 。 一 些 聚 合 已 
经 可 以 理解 : 橙色 聚合 表示 年 长 的 人 ， 紫 色 看 起 来 是 有 魅力 的 年 轻 人 


FY 
等 。 








这 个 绘图 只 显示 数据 的 二 维 或 者 三 维 ， 因 此 没有 充分 地 总 结 聚 类 算 
法 ， 绒 类 算法 完整 地 比较 了 20 维 空间 的 人 脸 。 这 是 一 些 聚 类 重 登 (oerlap) 
的 原因 : 举 个 例子 ， 红 色 和 绿色 看 起 来 有 非常 相似 的 年 龄 和 魅力 范围 。 
这 些 聚 合 必须 通过 其 他 属性 区 分 。 

我 们 通过 各 种 方式 来 分 别 查 看 各 个 聚合 。 痛 和 完 ， 我 们 显示 聚合 的 属 
性 权重 。 它 是 聚合 的 质心 点 的 位 置 ， 质 心 点 通 疝 梓 认为 是 该 聚合 表示 人 
脸 的 典型 属性 。 因 此 ， 如 果 你 得 看 图 17-13 的 每 个 集群 的 平均 点 ， 它 会 
返回 年 龄 和 魅力 的 聚合 权重 。 《我 们 将 显示 八 个 属性 ， 其 他 属性 不 重 
要 ， 因 为 它们 包含 太 多 的 缺失 值 。) 其 次 ， 我 们 显示 了 在 该 集群 中 的 人 
脸 的 最 显著 的 10 个 特征 ， 通 过 如 之 前 的 性 别 分 析 那 样 的 条 件 概率 进行 排 
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图 17-13: 魅力 和 年 龄 的 关系 ， 通 过 集群 着 色 ， 显 示 了 包含 2000 个 点 的 
子 样本 ( 见 彩 图 65) 
首先 ， 图 17-14 显 示 的 是 紫色 集群 。 这 是 一 个 非常 女性 化 、 具 有 高 度 
魅力 值 的 集群 。 标 签 很 有 趣 。 它 们 和 属性 惊人 的 相似 ， 事 实 上 ， 如 果 有 轿 
新 左 侧 图 ， 你 很 可 能 猜 出 该 组 的 很 多 属性 。 标 签 显示 了 一 致 生动 的 画面 
一 一 即使 我 们 的 k 均 值 聚 类 算法 完全 忽略 了 这 个 信息 ! 这 说 明了 标签 和 
社会 属性 有 内 在 的 联系 。 (这 一 点 可 能 不 足 为 怪 。) 





紫色 集群 质心 点 紫色 集群 标签 
C 三 紫色 集群 中 标签 的 出 现 次 数 


男性 E t= 全 局 标签 的 出 现 次 数 
年 龄 口 

Bh C t ratio 
智商 oO BAM 226 525 0.430 
可 信任 性 0 惊人 204 606 0.336 
kim ü 经 肖 113 439 0.257 
E: 肤浅 106 437 0.242 
政治 背景 | RHUME 202 837 0.241 
迷人 1 Keds 126 561 0.224 
| 121 545 0.222 
2 - 0 ?! 2 AR 170 785 0.216 
洋气 498 2327 0.214 
精力 充沛 123 579 0.212 


图 17-314: 集群 2 
我 们 在 图 17-15 和 图 17-16 展 示 了 所 有 和 集群， 包括 每 个 集群 中 四 个 最 有 
代表 性 的 脸 孔 (表示 最 接近 质心 点 的 ) 。 


人 脸 示例 
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集群 的 质心 点 


紫色 集群 
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17-15: 集群 的 质心 点 、 标 签 


和 例子 〈 见 彩 图 66) 


有 些 集 群 有 和 直接 的 解释 ， 而 为 一 些 则 不 是 很 清晰 : 





紫色 集群 
年 轻 、 有 魅力 的 女性 。 
[Nue 


丑陋 、 智 商 低 的 男人 “失败 者 ”? ) 。 


CC 


图 
绿色 集群 


其 他 更 普通 的 年 轻 男 人 。 它 的 很 多 标签 对 于 蓝 色 集群 也 非常 有 可 


红色 集群 


人 脸 示例 


最 经 典 的 标签 
引 人 注 目的 
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集群 的 质心 点 


集群 
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染色 集群 


集群 的 质心 点 、 标 签 和 例子 ( 见 彩 图 67) 





其 他 年 女性 。 

橙色 集群 

较 年 老 的 女性 。 

青绿 色 集 群 

较 年 老 的 男性 。 

聚 类 一 方面 用 于 发 现 数据 高 纬度 的 模式 或 者 分 组 会 很 有 用 ， 因 为 这 
些 模式 和 分 组 无 法 通过 两 个 维度 进行 可 视 化 。 妃 一 方面 ， 很 难 验证 聚 类 
是 否 告 诉 你 一 些 “ 真 实 ” 的 东西 。 存 在 很 多 聚 类 算法 和 很 多 参数 调整 ( 比 
如 k〉， 不 同 的 调整 会 生成 不 同 的 结果 。 这 项 工作 是 否 有 用 ? 

集群 看 起 来 似乎 相当 一 致 ， 而 且 对 于 很 多 模式 具有 提示 作用 。 观 看 
那些 生动 的 标签 集合 互相 关联 很 有 趣 。 而 k 均 值 聚 类 算法 可 能 可 以 模拟 
我 们 的 大 脑 中 对 人 类 特征 的 思考 。 从 质心 点 和 标签 集合 ， 我 们 可 以 想象 
表示 每 个 集群 的 典型 的 人 类 特征 。 


























结论 


数据 表明 ， 一 些 人 持 有 一 些 常 见 的 “偏见 ”"， 认 为 女性 比 男性 更 有 鬼 
力 。 年 龄 对 于 魅力 的 有 影响， 女性 比 男性 高 。 社 会 属性 的 空间 和 我 们 所 库 
伟 的 很 一 致 ， 乡 下 小 伙 、 父 华 、 有 魅力 的 年 轻 女 性 。 但 还 是 有 一 些 潜在 
的 令 人 惊 诈 的 地 方 : 砚 儿 最 有 吸引 力 、 看 起 来 保守 的 智商 更 高 等 。 我 们 
还 发 现 一 些 性 别 化 单词 的 例子 。 

我 们 试 厦 一 直 继 续 探 索 这 些 有 提示 性 的 及 现 ， 但 是 本 章 不 会 给 出 任 
何 特定 的 结论 。 相 反 地 ， 我 们 想 要 显示 在 关于 人 们 的 判断 的 大 量 、 混 杂 
的 数据 中 包含 的 有 意义 的 模式 的 是 集合 的 一 些 例子 。 更 严格 的 数据 收集 
处 理 ( 如 谨慎 控制 的 实验 〉 将 永远 都 无 法 生成 如 此 大 量 的 数据 ， 因 此 对 
于 后 续 的 实验 没有 太 大 作用 。 

每 天 我 们 都 通过 自己 购买 的 东西 、 使 用 的 web 站点、 搜索 的 查询 、 
发 送 的 消 妃 和 去 的 地 方 方 方面 面 地 展示 自己。 不 论 我 们 喜欢 与 个 ， 在 人 
类 历史 上 ， 这 是 第 一 次 把 所 有 的 数据 都 精心 保存 起 来 。 暂 不 考虑 重要 的 
隐私 问题 ， 该 数据 对 于 社会 科学 的 价值 是 非常 巨大 的 。 通 过 这 种 改变 用 
途 的 信息 的 混乱 ， 我 们 将 以 全 新 的 方式 了 解 目 己 。 
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房地产 市 场 在 过 去 几 年 得 到 了 媒体 的 极 大 关注 。 大 约 从 2000 一 2006 
年 ， 随 着 价格 的 碳 升 ， 我 们 既 惊奇 又 焦虑 地 看 着 房地产 行业 。 从 那 时 开 
始 ， 随 着 信用 成 为 稀缺 以 及 丧失 抵押 品 赎 回 权 的 蔓延 ， 房 地 产业 也 跌 入 
了 冬天 。 在 本 章 中 ， 我 们 通过 分 析 从 2003 一 2008 年 旧金山 海湾 地 区 50 万 
的 住宅 销售 来 近 距 离 探讨 这 个 “故事 ”。 从 一 个 地 区 的 价格 在 一 个 很 大 价 
格 范围 内 上 升 和 下 降 的 方式 ， 我 们 可 以 学 到 些 什 么 呢 ? 

我 们 将 从 描述 数据 、 如 何 获取 数据 以 及 如 何 通过 重 构 、 转 化 、 清 除 
和 增强 提升 原始 数据 开始 ， 从 而 为 数据 分 析 做 准备 。 随 着 分 析 逐 渐 深 
入 ， 我 们 的 大 多 数 发 现 都 会 通过 图 像 形 式 展 示 。 在 此 过 程 中 ， 还 会 介绍 
一 下 我 们 使 用 的 一 些 工 具 ， 这 些 工 具 多 数 都 是 可 以 免费 获取 的 。 我 们 的 
主要 工具 是 R， 它 提供 了 统计 编程 和 数据 分 析 环 境 ， 在 数据 分 析 的 各 个 
阶段 中 都 用 到 了 这 个 工具 : 获取、 清除、 分析、 诊断 和 表示 。 


我 们 是 如 何 获取 数据 的 





在 我 们 确定 对 房地产 的 实际 销售 数据 感 兴趣 之 后 ， 数 据 搜索 过 程 马 
上 随 之 展开 。 数 据 搜索 并 不 总 是 成 功 的 ， 因 此 当 我 们 发 现 了 《San 
Francisco Chronicle) J GERKE ET OX (By Area) 的 住宅 房地产 
CER. AE. EAR 的 销售 情况 〈 在 
http: /www.sfgate.com/homesales/ 可 访问 ) 之 后 ， 我 们 觉得 特别 的 幸 
运 。 当 我 们 得 知 自 己 不 需要 通过 解析 Web 页 面 来 抽取 数据 ， 而 是 已 经 可 
以 获取 计算 机 可 读 格 式 的 数据 时 ， 我 们 感觉 自己 更 幸运 了 。 

每 个 人 可 读 的 (HML Web 页 面 ) 每 周 总 结 都 是 基于 如 下 的 文本 文件 构 
建 的 : 











rowid: 1 
county:Alameda County 
city:Alameda 

newcity: 1 
zip: 94501 
street: 1220 Broadway 
price: $509, 000 


























br: 4 

lsqft: 4420 
bsqft: 1834 
year: 1910 





每 个 星期 的 数据 可 以 使 用 如 下 模式 的 URL 获 取 : 
http: //www.sfgate.com/c/a/<year>/<month>/<day>/REHS.tbl. XJF 
常 方 便 ， 因 为 只 需要 生成 一 个 从 他 们 开始 记录 的 日 期 2003/04/27 我们 


从 他 们 网 站 的 归档 页 面 中 找到 的 ) 到 最 近 2008/1116〈 截 止 到 分 析 时 

间 ) 的 所 有 星期 天 的 日 期 列表 。 有 了 这 个 日 期 列表 ， 我 们 生成 正确 格式 
的 URL 列 表 ， 通 过 Unix 命 令 行 工 具 Wget 就 可 以 下 载 它们 了 。 我 们 之 所 以 
选用 wget 是 因为 它 文 持 断 点 续 传 功能 ， 这 样 当 下 载 中 断 时 ， 可 以 很 容易 
地 从 上 一 次 下 载 到 的 位 置 继续 开 始 而 不 是 从 头 开始 。 

所 有 的 数据 都 保存 在 本 地 计算 机 上 ， 下 一 步 是 把 数据 转换 成 标准 格 
The PRA EA csv GEAR. comma-separated values) 格 式 ; csv 
文件 很 容易 生成 ， 而 且 为 各 种 统计 包 《〈 包 括 Excel! ) ML. RIE 
成 了 一 个 csv 格 式 的 文件 ， 如 下 : 

















county,city,zip,street,price,br,lsqft,bsqft,year,date,datesold 

Alameda County,Alameda, 94501, 1220 Broadway, 509000, 4, 4420, 1834, 
1910, 2003-04-27, NA 

Alameda County,Alameda, 94501, 429 Fair Haven Road, 504000, 4, 
6300, 1411, 1964, 2003-04- 

27, NA 

Alameda County,Alameda, 94501, 2804 Fernside Boulevard, 526000, 2, 
4000, 1272, 1941, 2003- 

04-27, NA 

Alameda County,Alameda, 94501, 1316 Grove Street, 637000, 3, 2700, 
1168, 1910, 2003-04- 

27, NA 





















































可 能 原始 的 数据 格式 更 适合 人 们 阅读 ， 但 是 这 种 csv 格 式 更 适合 计算 
机 处 理 。 它 不 但 更 标准 ， 而 且 更 紧凑 (csv 格式 的 数据 大 小 是 45M B, 
而 原始 数据 格式 的 数据 大 小 是 90MB)。 如 果 你 仔细 查看 样本 数据 ， 你 可 
能 会 注意 到 有 些 东 西 需要 解释 : NAs。NA 代 表 “ 不 适用 ”(Nt 
Applicable)， 而 标记 值 R 用 于 表示 缺失 值 。 在 分 析 中 我 们 必须 考虑 缺失 
值 。 

















解析 所 有 293 周 的 数据 并 创建 结果 文件 house-sales.csv 只 需要 花费 几 分 
钟 的 时 间 ， 该 csv 文 件 包 含 521726 个 观察 和 11 组 变量 。 调 整 解析 器 使 得 
它 满足 所 有 的 边界 情况 ， 这 个 过 程 花费 了 更 多 的 时 间 : 我 们 需要 把 价格 
格式 的 数据 转换 成 常用 的 数字 (通过 删除 “$” 和 点 “.” 符 号 ) ， 把 时 间 解 
析 成 一 致 的 格式 ， 而 且 为 没有 在 所 有 的 表 都 出 现 的 字段 填充 缺失 值 。 





HE Fini 


当 第 一 次 查看 数据 时 ， 我 们 认为 对 所 有 的 436106 个 唯一 地 址 进行 地 
理 编码 是 非常 重要 的 。 也 就 是 说 ， 我 们 想 要 为 每 一 个 地 址 关联 一 个 经 度 
和 纬度 值 ， 这 样 可 以 很 容易 地 探索 细 粒 度 的 空间 效果 。 这 是 一 个 很 有 趣 
的 挑战 : 你 如 何 对 将 近 50 万 的 地 址 进行 地 理 编码 呢 ? 

我 们 从 查看 G 公 司 和 Yahoo! 提供 的 Web 服 务 开始 。 这 些 服 务 不 适合 
有 两 个 原因 : 一 是 它们 对 于 每 天 的 请 求 个 数 有 严格 的 限制 ， 二 是 使 用 结 
果 数 据 时 存在 繁琐 的 限制 约束 。 单 单 请 求 限制 就 意味 着 对 所 有 的 地 址 进 
行 地 理 编码 可 能 需要 花费 1 个 多 月 的 时 间 ， 而 且 其 授权 将 会 影响 到 公开 
发 布 结果 ! 进一步 调研 之 后 ， 我 们 发 现 一 项 非常 有 用 的 开源 服务 ，USC 
WebGIS， 它 是 由 南 加 州 大 学 的 GIS 研 究 实 验 室 提 供 的 (Gldberg 和 Wilson 
2008) 。 该 服务 对 于 非 商 业 使 用 是 免费 的 ， 而 且 对 于 结果 数据 的 使 用 没 
有 什么 约束 。 我 们 开始 使 用 该 服务 ， 不 存在 每 天 的 使 用 上 限 ， 但 是 由 于 
速度 原因 存在 一 个 隐 含 的 上 限 : 我 们 每 天 只 能 够 对 大 约 8 万 条 地 址 进行 
地 理 编码 ， 因 此 为 总 共 40 多 万 条 数据 进行 地 理 编码 花费 了 5 天 多 的 时 
间 。 该 免费 服务 的 缺点 是 地 理 编码 的 质量 不 是 很 好 〈 它 只 使 用 了 公开 可 
以 访问 的 地 址 数据 ) ， 但 是 该 服务 的 创始 人 很 乐于 帮助 别人 ， 并 且 发 布 
了 该 服务 主题 的 优秀 的 介绍 文档 (Gldberg 2008) 。 

除了 经 度 和 纬度 ，USC WebGIS 服 务 提供 的 结果 中 还 包含 了 用 来 描述 
结果 本 身 准 确 程度 的 一 个 类 别 变量 : 精确 地 址 、 邮 政 编码 、 区 县 等 。 





























数据 检查 


对 于 每 个 阶段 的 数据 分 析 ， 通 常 而 言 ， 花 一 些 时 间 来 确保 数据 的 准 
确 性 是 完全 必要 的 ， 地 理 编码 也 不 例外 。 地 理 编码 的 错误 来 自 于 很 多 方 
m: 地 址 中 存在 拓扑 错误 ， 新 的 建筑 通常 不 会 列 在 公开 的 数据 库 中 ， 邮 
政 编码 随 着 时 间 可 能 变更 。 我 们 在 使 用 USC WebGIS 过 程 中 ， 怀 疑 该 软 
件 可 能 存在 一 个 bug， 因 为 大 量 的 地 址 被 错误 地 分 配 到 该 州 的 洛杉矶 及 
其 他 地 区 ; 我 们 使 用 另 一 个 免费 在 线 服务 http: //gpsvisualizer.com 对 这 
些 地 址 进行 了 重 映 射 。 调 试 过 程 中 ， 为 了 识别 在 旧金山 海湾 区 很 远 以 外 
的 地 址 ， 我 们 使 用 统计 建 模 工 具 R 来 为 每 个 区 县 以 及 绝 大 多 数 的 城镇 描 
绘 经 度 和 纬度 的 简单 地 图 。 

San Jose 地 区 的 地 址 提出 了 一 个 有 趣 的 地 理 编码 挑战 。 如 一 些 “ 城 
镇 的 销售 列表 ， 我 们 找到 的 所 有 映射 网 站 都 无 法 识别 这 些 信 息 ， 因 此 
我 们 假定 它们 是 社区 的 非 正 式 名称 : San Jose 的 北部 、 南 部 、 东 部 和 西 
部 ，Berryessa、Cambrian 和 一 些 其 他 地 区 。 

只 要 可 能 ， 我 们 就 试 着 纠正 任何 错误 。 当 无 法 纠正 错误 时 ， 我 们 就 
使 用 统计 建 模 工 具 R 的 缺失 值 来 表示 我 们 不 知道 该 地 区 准确 的 经 纬度 
值 。 这 种 处 理 方式 比 扔 到 那些 “错误 匹配 ?更 好 ， 因 为 不 同 目的 需要 有 不 
同 的 准确 度 : 当 我 们 以 区 县 或 者 城市 的 粒度 对 数据 进行 映射 时 ， 只 要 有 
很 接近 的 地 理 位 置 就 可 以 。 为 经 度 和 纬度 使 用 缺失 值 确保 任何 包含 可 疑 
的 地 理 编码 的 地 区 都 会 从 使 用 经 纬度 的 分 析 中 删除 ， 但 是 在 其 他 情况 




















ub A 
都 会 包含 这 些 缺 失 值 。 


分 析 





为 了 对 房地产 市 场 变 化 有 更 广泛 的 概览 ， 我 们 从 平均 销售 价格 和 销 
售 量 谈 起 。 因 为 数据 是 以 周 为 单位 生成 的 ， 这 是 一 个 自然 的 时 间 单 位 。 

图 18-1 显 示 了 293 周 数据 中 每 周 的 平均 销售 价格 和 销售 量 。 这 里 存在 
一 些 非常 有 趣 的 模式 。 平 均 价 格 的 行为 非常 显著 : 一 直 呈 上 升 趋势 直到 
2007 年 7 月 ， 然 后 是 急剧 下 降 ， 直 到 现在 一 一 房地产 市 场 价格 的 繁荣 和 
匡 条 的 一 个 明显 的 例证 。 

销售 情况 则 完全 不 同 。 大 多 数 年 份 〈 尤 其 是 2004 年 和 2005 年 ) 显示 
非常 明显 的 季节 效应 ， 夏 季 中 下 旬 达 到 高 峰 ， 而 冬季 的 销售 量 则 减少 。 
《在 这 里 需要 做 一 个 说 明 ， 我 们 使 用 的 这 份 数据 中 只 有 很 少 一 部 分 提供 
了 真正 的 截止 日 期 ， 因 此 我 们 使 用 了 在 报纸 中 报道 的 销售 日 期 ， 这 个 日 
期 可 能 在 截止 日 期 的 4 一 6 周 之 后 。) 一 旦 我 们 考虑 过 去 的 季节 性 影响 ， 
我 们 可 以 看 到 一 些 其 他 方面 。 从 2006 年 中 一 2008 年 初 ， 销 售 量 下 降 ， 当 
然 意 味 着 房地产 的 萧条 。 但 是 ， 在 2008 年 初 的 销售 急剧 下 降 ， 也 预示 了 
冬季 销售 量 的 下 跌 。2008 年 初 的 销售 增加 是 怎么 回 事 呢 ? 一 个 可 能 是 那 
时 房价 已 经 下 降 了 很 多 ， 买 家 在 春天 到 来 前 购买 降价 商品 。 销 售 量 增加 
的 另 一 种 可 能 是 由 于 有 些 房子 丧失 了 抵押 品 赎 回 权 。 可 能 在 未 来 几 个 月 
之 后 ， 对 于 给 定 问题 的 解释 会 逐步 明朗 起 来 。 

这 些 简单 的 绘图 为 进一步 探索 提出 了 一 些 方向 。 这 些 模式 在 所 有 价 
格 区 间 对 于 所 有 家 庭 都 一 样 吗 ? 那 不 同 的 城市 或 者 是 一 个 城市 的 社区 内 






































会 是 什么 情况 呢 ? 为 了 调查 这 些 问 题 ， 我 们 将 遵循 相同 的 过 程 : 我 们 将 
通过 不 同 的 方式 对 数据 进行 分 区 ， 比 较 不 同 分 区 的 模式 。 我 们 将 基于 房 
屋 价 格 和 物理 位 置 创建 分 区 《从 最 贯 的 到 最 便宜 的 ) ， 都 是 城市 之 间 和 
一 个 城市 内 的 《旧金山 ) 。 
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图 18-1: 每 周 的 平均 价格 (上 图 ) HES (下 图 ) ， 住 房市 场 繁 荣 
和 萧条 的 明显 证 据 。 注 意 在 2008 年 的 销售 上 升 
在 进一步 分 析 之 前 ， 我 们 停 下 来 考虑 一 下 通货 膀 胀 。 数 据 是 在 相对 
较 短 的 时 间 周 期 “大 约 6 年 ) 内 收集 的 ， 但 是 我 们 在 思考 是 个 要 根据 通 
货 膨胀 对 价格 指数 做 出 调整 ， 以 便 确保 2003 年 支付 的 价格 和 2008 年 支付 
的 价格 具有 可 比 性 。 和 常用 的 计算 通货 脱 胀 方法 是 参考 消 强 者 价格 指数 

(Cnsumer Price Index,CPD， 它 是 由 劳工 统计 局 生成 的 ， 可 以 访问 








http: /www.bls.gowWCPI 获 取 。CPI 计 算 经 常 购买 的 消费 者 产品 和 服务 的 
加 权 的 “ 桶 ”的 价格 。 该 价格 是 每 个 月 计算 一 次 ， 我 们 将 使 用 西海 岸 序列 
(CUR0400SA0 序 列 ) 为 通货 膨胀 对 数据 做 调整 。 我 们 想 把 所 有 的 值 都 调 
整 为 2003 年 的 价格 ， 因 此 ， 我 们 把 每 个 CPI 值 除 以 其 在 2003 年 3 月 相应 的 
价格 值 。 这 种 操作 被 称 为 “相关 价格 指数 化 ”(Idexing)。 它 得 到 的 是 2003 
年 1 美元 在 每 个 时 间 点 的 相对 价值 ， 使 得 可 以 很 容易 看 懂 图 中 的 通货 脱 
胀 效果 : 值 1.1 表 示 从 数据 起 始 开 始 ， 标 积 通 货 脱 胀 达到 10%。 图 18-2 显 
示 基 于 CPI 的 通货 膨胀 衡量 尺度 以 及 为 通货 膨胀 调整 价格 的 影响 。 通 货 
膨胀 在 过 去 5 年 一 直 稳 定 增长 ， 我 们 可 以 发 现 根 据 通 货 膨 胀 调整 的 房价 
的 增长 趋势 稍微 低 于 未 调整 的 趋势 。 最 后 ， 我 们 还 是 决定 不 按照 通货 脱 
胀 调整 销售 价格 。 住 房价 格 对 于 CPI 有 影响 ， 因 为 它 的 一 个 子 指数 是 住 
房 指 数 ， 它 是 出 租 和 “拥有 者 的 等 价 出 租 ” 的 尺度 。 可 能 有 人 会 说 住房 价 
格 对 于 CPI 在 整个 研究 期 间 内 有 深远 的 影响 。 
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图 182: (ER) 通货 膨胀 ， 在 序列 开始 时 价格 相关 指数 化 为 1; (下 
图 ) 以 2003 年 价格 为 标准 根据 通货 膨胀 调整 的 住房 价格 〈 红 色 ) 和 未 调 
整 的 价格 (TEE) 。 没 有 根据 通货 膨胀 调整 价格 使 得 价格 上 升 趋势 看 起 
来 更 陡峭 ,但 是 对 于 价格 下 降 几 乎 没有 任何 影响 。 不 包含 Monterey、San 
Benito. San Joaquin 和 Santa Cruz 区 县 ， 因 为 我 们 只 有 这 些 区 县 的 2008 年 
的 数据 

有 了 这 些 基 本 概况 ， 我 们 现在 开始 深入 到 细节 。 在 本 章 的 后 面部 
分 ， 我 们 把 住房 销售 划分 成 几 个 小 的 群体 ， 首 先是 通过 价格 ， 然 后 是 通 
过 地 理 位 置 。 我 们 对 于 发 现 住 房市 场 是 否 对 某 些 业主 群体 比 其 他 人 市 来 
更 多 的 影响 感 兴趣 


























住房 危机 给 富 人 带 来 的 影响 和 穷人 带 来 的 影响 是 相同 的 吗 ? 该 危机 
的 影响 是 否 改善 或 者 恶化 这 两 个 群体 的 相对 平等 性 ? 在 本 章 中 ， 我 们 将 
探索 危机 如 何 影响 住房 价格 的 分 布 。 一 个 重要 的 提醒 是 我 们 查看 的 是 洛 
杉 矶 海湾 区 ， 因 此 ， 其 住房 价格 会 比 该 区 的 其 他 地 方 的 价格 高 得 多 ， 但 
是 我 们 仍然 期 望 能 够 观察 到 一 些 相 对 的 不 平等 性 。( 注 意 : 在 以 下 部 
分 ， 我 们 将 频繁 地 使 用 单词 “住房 *(huses) 来 泛 指 住 宅 房 地 产 的 所 有 领 
Eh. 住房 、 别 墅 、 公 寓 等 。) 

我 们 先 计 算 每 个 月 的 价格 十 分 位 数 。 该 十 分 位 数 分 别 是 住房 价格 下 
10%. 2096. 3096. 4096. 5096. 6096. 7096. 8096519096. 1X EX} Hy 
月 价格 分 布 的 简明 摘要 : 不 是 像 我 们 之 前 所 做 的 那样 查看 平均 价格 ， 而 
是 通过 9 个 数值 来 总 结 价格 的 完整 分 布 。 (我 们 没有 显示 最 低 价 格 或 者 
最 高 价格 的 曲线 ， 因 为 这 些 价格 太 不 稳定 。) 

图 18-3 显 示 了 这 些 十 分 位 数 如 何 随 着 时 间 变 化 。 最 高 行 是 第 九 个 十 
等 分 ， 价 格 低 于 住房 价格 的 90%; 最 低 行 是 第 一 个 十 等 分 ， 价 格 仅仅 比 
主 房价 格 低 10%。 中 间 行 是 平均 值 ， 该 价格 是 住房 价格 的 一 半 。 线 条 颜 
色 从 深 变 浅 ， 表 示 从 最 贵 的 到 最 便宜 的 。 每 条 线 有 相似 的 模式 ， 我 们 可 
以 观察 到 受 2007 年 的 住房 泡沫 的 影响 ， 尤 其 是 价格 最 高 的 住房 。 
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图 183: 每 个 百分点 内 的 每 月 平均 住房 价格 。 百 分 点 越 低 ， 颜 色 
越 浅 。 该 绘图 很 清晰 地 显示 了 价格 更 高 的 住宅 的 泡沫 的 本 质 ， 但 是 对 于 
最 低 价 格 区 间 ， 它 不 是 很 明显 

该 绘图 允许 我 们 比较 每 个 十 分 位 数 的 绝对 值 ， 但 是 查看 相对 价格 可 
能 更 合适 : 价格 如 何 相应 的 变化 ?查看 相对 价格 的 一 种 方式 是 比较 每 个 
十 分 位 数 和 它 的 初始 值 。 为 了 实现 这 一 点 ， 我 们 对 每 个 十 分 位 数 指数 
化 ， 通 过 其 初始 值 划 分 序列 ， 正 如 我 们 计算 消费 价格 指数 一 样 。 图 18-4 
显示 了 这 些 指数 。 每 个 十 分 数 起 始 位 1.0， 我 们 可 以 看 到 随时 间 的 价格 
相对 变化 。 该 图 的 一 个 很 有 趣 的 一 面 是 价格 更 低 的 住房 〈 浅 色 线 条 ) 所 
达到 的 峰值 更 高 更 早 〈2005 年 中 ) ， 然 后 在 后 期 下 降 更 快 。〈 注 意 深 色 
和 浅 色 线条 在 2007 年 早期 的 位 置 交 蔡 。) 最 便宜 的 住房 ， 即 在 最 低 的 十 
分 数 ， 损 失 值 相当 于 2003 年 价值 的 43%， 而 最 昂贵 的 住房 只 损失 了 9%。 
比较 图 18-3 和 图 18-4， 我 们 发 现 虽 然 在 实际 价格 中 ， 最 大 的 绝对 下 降 值 
发 生 在 最 贵 的 住房 ， 但 是 ， 最 便宜 的 住房 相对 损失 值 是 最 大 的 。 

图 18-5 是 查看 该 不 平等 性 的 另 一 种 方式 。 我 们 把 所 有 的 价格 都 除 以 

















住房 平均 价格 。 其 值 表示 平均 住房 价格 : 值 1.2 表 示 价 格 高 出 平均 价格 

20%，0.8 表 示 低 于 平均 价格 20%。 自 从 2007 年 年 初 ， 虽 然 价 格 高 的 住房 
形式 还 很 繁荣 ， 相 对 不 平等 性 已 经 开始 增长 。 这 是 否 意味 着 住房 高 的 和 
住房 低 的 价格 差距 更 大 是 后 继 产 生 和 危机 的 前 兆 ? 该 情况 是 否 暗示 了 其 他 
危机 ? 这 些 问 题 可 以 进一步 研究 ， 但 是 我 们 这 里 没有 数据 来 对 它们 进行 
深入 探索 。 
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图 18-4: 每 个 十 分 数 内 指数 化 的 住房 价格 〈 线 条 颜色 越 浅 ， 价 格 
越 低 ) 萧条 期 在 价格 低 的 住房 中 首先 发 生 : 价值 越 低 的 住房 的 平均 价格 
上 升 的 峰值 越 高 而 且 越 早 ， 下 降 更 快 且 幅度 更 大 
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图 18-5: 住房 价格 相对 于 中 等 价格 的 住房 的 价格 。 住 房价 格 上 存在 的 
差距 从 2007 年 早期 开始 一 直 增 长 


地 理 区 别 


本 节 中 我 们 将 探索 海湾 地 区 不 同城 市 的 住房 价格 变化 。 因 为 我 们 查 
看 的 是 平均 价格 ， 我 们 必须 注意 不 要 包含 只 有 很 少 的 销售 量 的 城市 。 我 
们 决定 重点 放 在 每 周平 均 销售 量 至 少 10 套 的 所 有 城市 。 这 种 方式 最 后 篇 
选 出 58 个 城市 〈 总 共 是 245 个 城市 ， 占 24%) ， 共 428415 套 住房 销售 量 
( 占 销售 总 量 的 82%) 。 

然后 ， 我 们 计算 了 以 周 为 单位 的 平均 房价 。 图 18-6 显 示 了 这 些 价 
格 ， 每 个 城市 使 用 一 条 不 同 的 曲线 来 描绘 。 统 计 学 家 为 这 种 展示 方式 起 
了 一 个 很 生动 的 名 字 : “意大利 面条 曲线 ”。 很 难 从 一 大 堆 线 条 中 碍 看 任 
何 东 西 。 对 这 种 曲线 的 一 种 改进 方法 是 对 每 条 线 进行 平滑 ， 删 除 短期 的 
变化 ， 使 我 们 可 以 重点 观察 长 期 趋势 。 
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图 18-6: 每 个 城市 的 每 周平 均 销 售 价格 。 这 种 类 型 的 绘图 通常 被 
称 为 “意大利 面条 曲线 ”。 它 需要 平滑 ， 因 为 曲线 中 这 种 “周到 周 x 
间 的 变化 无 法 检测 出 趋势 

为 了 创建 平滑 的 曲线 ， 我 们 使 用 了 广义 的 可 加 模型 (GM)， 它 是 对 线 
性 模型 的 范 化 (wod 2006) 。 广 义 可 加 模型 通过 优化 权衡 切 近 数 据 并 且 


线条 平滑 的 方式 来 拟 合 线条 曲线 。 实 际 上 ， 它 消除 了 噪音 数据 带 来 的 短 
期 影响 ， 并 且 将 重点 集中 于 长 期 趋势 。 这 正 是 我 们 所 需要 的 : 我 们 对 每 
天 的 或 者 每 周 的 变化 不 感 兴趣 ， 而 只 对 和 住房 危机 相关 的 长 期 变化 感 兴 
趣 。 

图 18-7 上 方 显 示 了 平滑 化 后 的 结果 。 这 是 一 个 很 大 的 改善 。 现 在 我 
们 可 以 真正 看 到 一 些 模式 ! 注意 该 图 和 第 一 个 图 在 规模 上 的 重大 区 别 : 
平滑 数据 已 经 删除 了 一 些 非常 昂贵 的 住房 的 销售 高 峰 的 描述 。 我 们 还 会 
对 每 个 城市 指数 化 ， 正 如 我 们 之 前 对 每 个 十 分 数 指数 化 那样 : 通过 相对 
初始 价格 进行 划分 ， 使 得 每 个 城市 可 以 有 一 个 共同 的 规模 ， 人 允许 我 们 把 
重点 放 在 变化 上 。 这 一 点 显示 在 图 18-7 下 方 。 

现在 还 存在 很 多 变化 ， 但 是 我 们 可 以 开始 看 到 增长 值 模式 直到 2007 
年 年 中 ， 然 后 后 期 值 开 始 下 降 。 为 了 进一步 探讨 ， 我 们 需要 分 别 查 看 这 
些 城市 ， 如 图 18-8 所 示 。 该 曲线 图 占 了 很 大 空间 ， 但 是 它 提 供 了 很 多 额 
外 的 信息 ， 因 此 是 值得 的 。 我 们 可 以 挑选 出 一 些 有 趣 的 模式 : 伯克利 和 
旧金山 显示 的 高 峰值 较 低 ， 而 下 降 值 较 少 ， 而 Mountain View 的 独特 之 
处 在 于 它 的 住房 价格 一 点 都 没有 下 降 。 其 他 城市 如 Oakley、Vallejo 和 
San Pablo， 则 是 大 起 大 落 ， 高 峰值 很 高 ， 而 跌落 值 也 很 大 。 

回想 一 下 我 们 之 前 关于 San Jose 城 市 的 讨论 ， 我 们 注意 到 ， 原 始 数 据 
本 身 描述 了 San Jose 城 市 的 很 多 社区 。 由 于 这 一 点 ， 有 时 相同 的 地 址 被 
分 配给 多 个 社区 ， 但 是 该 数据 还 表明 这 些 社区 具有 鲜明 的 特点 。 
Berryessa、 东 San Jose、 北 San Jose 和 南 San Jose 有 相似 的 曲线 ， 呈 现 出 























很 鲜明 的 高 峰 和 一 样 鲜 明 的 下 降 ， 而 另 一 方面 ，Cambrian、San Jose 和 
西 San Jose 则 没有 出 现 这 么 大 幅度 的 下 降 。 

经 过 进一步 调查 ， 我 们 发 现 一 个 使 得 城市 之 间 相 互 区 别 的 主要 特 
征 : 在 繁荣 期 价格 之 间 的 区 别 以 及 它们 最 近 的 下 降幅 上 度 。 我 们 创建 了 一 
个 新 的 变量 ， 称 为 “价格 回落 *"， 它 表示 在 2006 年 2 月 〈 繁 末期 的 顶峰 ) 
和 2008 年 11 月 〈 写 本章 内容 时 的 “低谷 ”) 之 间 的 平均 价格 的 相对 下 降 。 
图 18-9 通 过 新 的 变量 对 城市 进行 分 组 。 这 些 城市 的 划分 是 随机 的 ， 但 是 
你 可 以 看 到 每 组 城市 如 何 章 循 相似 的 模式 : KRR MRB. 
这 意味 着 这 单个 数字 可 以 很 好 地 总 结 住房 危 机 的 繁荣 和 萧条 方面 。 
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图 187: 平滑 后 的 每 周 销售 价格 ， 每 条 曲线 表示 一 个 城市 (上 


图 ) 。 下 图 底部 的 曲线 进行 了 指数 化 来 显示 价格 的 变化 比例 。 模 式 开 始 
出 现 了 

我 们 已 经 确定 城市 具有 不 同 的 模式 ， 但 是 还 不 知道 产生 这 种 现象 的 
可 能 原因 。 地 理 模 式 ， 如 图 18-10 所 示 ， 没 有 显示 任何 特别 突出 的 ， 除 
了 受灾 最 严重 的 地 区 通常 是 旧金山 市 的 北部 和 东部 。 这 并 不 能 提供 有 力 
的 说 服 力 ， 因 此 我 们 需要 寻找 更 多 的 数据 ， 可 以 帮助 我 们 获得 更 深入 的 
理解 。 








人 口 普查 信息 


美国 人 口 普 查 局 提供 了 在 县 、 市 两 个 级 别 的 最 新 调查 的 人 口 统 计 信 
A. quickfactsbjxi (kk ùn 
http: //quickfacts.census.gov/qfd/states/06/0649670.html) ‘as T 4j Jl iti 
的 很 多 有 趣 的 人 口 统计 变量 。 遗 憾 的 是 ， 城 市 级 别 的 数据 无 法 简单 地 通 
过 下 载 获 取 ， 但 是 我 们 可 以 采用 脚本 《正如 那些 我 们 使 用 的 销售 数据 ) 
来 收集 人 口 统计 信息 ， 并 把 它 转化 为 csv 格 式 。 此 外 ， 在 人 口 普 查 数 据 
和 销售 数据 中 ， 城 市 的 定义 有 一 点 区 别 ， 因 此 我 们 从 全 部 58 个 城市 中 只 
匹配 了 46 个 。 人 口 统计 数据 没有 才 盖 我 们 选择 的 一 些 城市 ， 因 为 这 些 城 
市 的 人 口 低 于 某 些 截断 值 〈 阔 值 ) ， 而 另 一 方面 正如 我 们 之 前 讨论 San 
Jose 城 市 时 所 指出 的 ， 一 些 住房 数据 称 之 为 “城市 "的 ， 实 际 上 是 更 大 城 
市 范围 内 的 社区 。 
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每 个 城市 的 i 价格 图 ， 已 经 进行 了 平滑 化 和 指数 化 。 


这 些 曲 线 和 图 18-7 中 下 方 的 图 的 各 条 交 县 的 曲线 (意大利 面条 曲线 ) 完 


图 18-8: 


示 住 房市 场 的 繁荣 和 萧条 ; 伯克利 的 曲线 显 
Mountain View 则 是 唯一 一 个 价格 还 在 上 升 的 城市 


全 相同 。San Pablo 的 曲 


示 变 化 幅度 更 小 ; 





图 18-9: 根据 城镇 的 价格 回落 对 曲线 进行 分 组 图 。 图 中 左上 方 的 
城镇 价格 下 降 最 大 (在 0.8 和 1 之 间 ， 或 80% 打 破 100%) ; 图 中 右 下 方 的 
城镇 (Muntain View) 是 唯一 价格 没有 下 降 的 。 每 个 组 内 的 模式 是 相似 的 ， 
表明 单个 数字 提供 了 很 有 用 的 方式 把 城市 划分 成 组 








图 18-10: 价格 回落 的 地 理 分 布 。 降 价 最 严重 的 城镇 是 北部 和 东 
部 。 单 个 环 表示 Mountain View 的 地 理 位 置 ， 它 是 唯一 销售 价格 继续 增长 
的 城市 

一 看 人 口 统计 变量 就 能 发 现 影 响 最 严重 的 城市 有 大 量 的 灾 儿 和 小 
孩 ， 家 性 成 员 更 多 ， 学 士 学 位 更 少 ， 交 通 时 间 更 长 。 更 重要 的 是 ， 这 些 
城市 的 平均 收入 也 更 低 ， 这 可 能 是 导致 其 他 关系 的 主要 因素 。 图 18-11 
包含 了 三 个 散 扣 图 ， 说 明了 住房 价格 回落 和 收入 、 大 学 生 比 例 以 及 交通 
时 间 的 关系 。 价 格 回 落 和 交通 之 间 的 关联 度 很 低 ， 但 是 注意 交通 时 间 最 
长 〈 超 过 35 分 钟 ) 的 所 有 城市 在 价格 上 有 特别 大 的 回落 。 住 房 危 机 看 起 





来 在 更 贫困 的 地 区 ， 受 到 的 冲击 影响 更 大 。 

县 级 人 口 普查 数据 包含 比 城市 数据 更 多 的 变量 ， 因 此 我 们 分 析 了 县 
级 数据 来 进一步 解释 住房 危机 。 图 18-12 中 上 方 的 图 显示 ， 对 于 我 们 有 
销售 数据 的 任何 县 ， 描 绘 了 住房 单元 个 数 的 变化 比例 〈 从 2000 一 2006 
年 ) 和 2008 年 的 平均 销售 价格 比较 。 在 最 近 住 房价 值 和 新 建筑 数据 之 间 
存在 很 强 的 负面 关系 。 换 句 话 说 ， 最 近 几 年 绝 大 多 数 的 建筑 繁荣 发 生 在 
更 贫困 的 社区 ， 正 如 我 们 之 前 所 述 ， 有 些 地 区 其 后 继 的 价格 疲软 是 最 严 
重 的 。 特 别 是 San Joaquin 县 ， 它 的 城镇 价格 都 很 低 ， 从 最 近 几 年 到 现在 
为 止 ， 有 更 多 的 新 建筑 。 应 该 注意 的 是 ， 这 些 城市 中 ， 有 些 我 们 没有 很 
多 的 销售 数据 (比如 San Benito 和 Santa Cruz)， 但 是 这 些 关系 的 全 局 的 本 
质 还 是 非常 清晰 的 。 图 18-12 中 下 方 的 图 更 进一步 说 明了 这 个 效果 ， 它 
也 显示 了 住房 单元 从 2000 一 2006 年 的 比例 变化 ， 但 是 它 是 和 县 级 的 2005 
年 人 均 收 入 比较 ， 从 人 口 普查 数据 中 获得 。 我 们 注音 到 该 图 和 前 一 个 图 
存在 相似 性 ， 而 且 它 进一步 说 明了 新 建筑 的 密度 在 相对 不 富裕 的 地 区 更 
大 ， 即 使 将 统计 的 聚集 级 别 从 城市 扩大 到 县 级 时 ， 仍 然 具 有 上 述 特征 。 

显然 ， 价 格 和 收入 是 强 正 相关 ， 从 图 18-11 的 城市 等 级 上 可 以 观察 
到 。 

根据 《New York Times》 的 一 篇 文章 (MKinley 2007) ，Stockton 城 
市 ，San Joaquin 省 最 大 的 城市 之 一 ， 到 2007 年 夏天 ， 已 经 是 美国 丧失 抵 
押 品 赎 回 权 比 例 最 高 的 城市 了 。 

遗憾 的 是 ， 我 们 没有 Stockton 城 市 在 2008 年 之 前 的 销售 数据 ， 但 是 直 

















到 2008 年 ， 看 起 来 它 仍 然 是 该 地 区 持续 低迷 的 主要 代表 。Stockton 城 市 
的 人 口 在 过 去 10 年 增长 迅速 ， 为 了 逃避 海湾 地 区 过 热 的 房地产 市 场 ， 上 
下 班 的 人 们 住 的 地 方 越 来 越 偏远 。 这 有 助 于 解释 之 前 提出 的 新 建筑 ， 而 
且 也 把 我 们 的 观察 和 上 下 班 时 间 关 联 起 来 。 该 文章 还 列举 了 Modesto 和 
Merced 城 市 ， 在 中 央 山 谷 (Cntral Valley) 的 两 个 城镇 ， 在 当时 都 位 列 全 国 
并 失 抵 押 品 赎 回 权 数 量 最 高 的 十 大 城市 之 中 。 











探索 旧金山 


探索 了 城市 之 间 的 区 别 ， 我 们 开始 更 详细 地 查看 单个 城市 。 旧 金山 
是 个 很 显然 的 选择 : 在 我 们 包含 的 数据 中 它 是 最 大 的 城市 ， 也 是 我 们 最 
熟悉 的 城市 ， 而 且 它 包含 一 些 标志 性 的 特征 ， 可 以 很 容易 为 别人 所 识 
别 。 我 们 通过 抽取 旧金山 的 所 有 地 址 来 开始 探索 ， 这 些 地 址 通过 非常 高 
的 精确 度 进行 编码 ， 为 我 们 总 共 提 供 25377 个 地 址 。 我 们 创建 了 一 个 简 
单 的 经 纬度 散 点 图 ， 如 图 18-13 所 示 。 
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图 18-12: 新 的 构建 与 最 近 价 格 (EA) 和 个 人 收入 (下 图 ) HK 
系 ， 数 据 以 县 为 单位 聚集 。 住 房 单位 个 数 在 价格 较 低 和 人 均 收 入 较 低 的 
住房 城市 相对 增长 最 大 

对 于 城市 的 居住 地 区 ， 该 图 给 了 我 们 非常 详尽 的 画面 。 我 们 可 以 看 
到 街道 方向 、 海 滨 边 界 和 公园 。 一 些 地 区 的 视图 ， 如 市 中 心 ， 显 得 更 散 





住房 单位 的 变化 比例 (2000 一 2006 年 ) 


落 ， 因 为 这 些 地 方 住宅 区 较 少 。《【〈 在 本 章 中 ， 我 们 将 避免 用 简写 词 “ 房 
子 ”， 因 为 很 显然 很 多 销售 的 住房 指 的 是 公寓 

该 绘图 的 一 个 问题 是 我 们 无 法 看 到 每 个 特定 位 置 的 销售 数量 。 网 18- 
14 显 示 了 试 者 捕获 信息 的 两 种 答 试 。 在 上 图 ， 我 们 显示 的 是 冒 抱 图 ， 其 
地 理 位 置 和 销售 数量 成 正比 。 现 在 ， 我 们 得 到 和 商业 区 非常 不 同 的 视 
图 : 那里 有 很 高 的 销售 量 。 仔 细 碍 看 这 些 数据 可 以 发 现 这 些 公 寓 建 筑 有 
几 百 套 的 公寓 。 在 下 图 ， 我 们 把 旧金山 分 成 丝 度 和 纬度 0.005 平 方 米 的 
方块 ， 计 算 每 个 方块 内 的 住房 数量 。 这 给 了 我 们 更 高 层次 的 视图 ， 显 示 
主要 的 家 庭 所 在 的 地 区 。 











图 18313: (ER) 对 于 数据 中 的 每 个 住宅 销售 都 画 出 了 一 个 小 
点 ， 它 给 我 们 非常 好 的 旧金山 布局 的 感觉 (FA) 为 了 比较 ， 显 示 的 
是 一 张 旧金山 的 街道 地 图 ， 来 自 http: //openstreetmap.com ( 见 彩 图 68) 

使 用 相同 的 分 块 方式 ， 我 们 计算 了 住房 价格 的 均值 和 变化 系数 。 变 
化 系数 是 通过 除 以 平均 值 计算 出 来 的 标准 差 。 我 们 这 里 使 用 它 是 因为 





$100000 的 变化 在 当 住房 价格 很 低 时 要 比 住房 价格 高 相对 更 重要 。 


图 18-14: 住宅 销售 数量 的 地 理 分 布 。 (上 图 ) 该 图 和 之 前 的 绘图 
相似 ,但 是 点 的 大 小 和 每 个 唯一 位 置 的 销 信 数量 成 正比 。 这 大 大 改变 了 
图 片 ， 因 为 城市 大 公寓 的 复杂 性 现在 开始 凸显 出 来 。 (FA) 在 更 高 层 


聚集 的 销售 显示 : 经 度 和 纬度 被 划分 到 少数 的 分 块 ， 每 个 分 块 的 销售 数 


量 都 被 计数 ， 作 为 分 块 的 颜色 显示 

图 18-15 显 示 了 这 两 种 求 和 统计 的 地 理 分 布 。 我 们 可 以 看 到 Presidio 城 
市 边界 和 该 城市 的 南海 岸 最 昂贵 的 住房 。 在 西南 地 区 看 起 来 有 个 高 峰 : 
这 就 是 富裕 的 St.Francis Wood 地 区 ， 在 旧金山 州立 大 学 附近 。 变 化 系数 
存在 一 个 有 趣 的 地 理 趋 势 : 似乎 价格 朝 着 西北 地 区 增长 。 





图 18-15: 使 用 和 之 前 图 相同 的 经 度 和 纬度 分 块 方法 ; 均值 (上 
EJ) 和 变化 系数 (下 图 ) 是 使 用 相同 的 灰色 调 来 计算 和 显示 的 


结论 








我 们 从 多 个 角度 查看 了 数据 ， 观 察 到 的 是 相同 的 东西 : 住房 危机 在 
更 贫困 地 区 相对 伤害 更 深 。 繁 荣 和 萧条 对 于 价格 低 的 住房 打击 更 早 更 
大 ; 平均 收入 较 低 的 城市 高 峰值 更 高 ， 下 降 更 多 ， 落 差 也 更 大 。 很 多 繁 
沫 景象 和 新 建筑 有 关 ， 绝 大 多 数 的 目标 是 低 端 市 场 。 

很 多 新 建成 的 住宅 远离 旧金山 市 区 ， 在 较 不 发 达 的 地 区 ， 居 民 平 均 
收入 较 低 、 孩 子 更 多 、 上 下 班 时 间 更 长 。 虽 然 价格 上 最 大 的 绝对 下 降 发 
生 在 高 端 ， 但 从 跌 下 的 价格 相对 于 房子 本 身 的 价值 所 占 比例 的 角度 考 
虑 ， 较 便宜 的 住房 损失 更 大 。 

自从 房地产 泡沫 成 为 头条 新 闻 ， 所 有 这 一 切 都 和 我 们 所 学 到 的 关于 
次 级 抵押 贷款 一 致 。 很 多 信誉 很 低 的 人 也 获得 了 抵押 贷款 ， 初 始 每 个 月 
支付 很 少 。 当 这 些 支 付款 项 不 断 增长 时 ， 他 们 就 无 法 支付 了 ， 违 约 和 表 
失 抵 押 品 赎 回 权 的 数量 开始 上 升 。 我 们 之 前 猜测 过 2008 年 销售 的 增长 可 
能 和 丧失 抵押 品 赎 回 权 有 关 ， 而 且 下 一 步 有 趣 的 步骤 是 定位 出 丧失 抵押 
品 赎 回 权 的 数据 ， 并 结合 我 们 的 销售 数据 一 起 调研 。 

我 们 使 用 了 相对 简单 的 统计 方法 如 索引 、 计 算 位 数 、 平 滑 和 分 块 来 
探索 大 的 、 复 杂 的 数据 集合 。 我 们 从 广泛 的 摘要 开始 ， 然 后 深入 探索 细 
节 ， 但 是 我 们 还 只 是 触及 表面 。 如 果 你 对 我 们 的 数据 感 兴趣 并 希望 进 一 
步 了 解 我 们 的 工作 细节 ， 或 者 尝试 一 些 你 的 想法 ， 你 可 以 在 git 库 : 
https: //github.com/hadley/sfhousing 检 出 所 有 数据 和 代码 。 我 们 写 的 所 有 














代码 〈R、Perl 和 shell 脚 本 ) 都 是 运行 在 开源 软件 上 ， 因 此 ， 任 何人 都 可 
以 复制 这 些 工作 成 果 ， 而 不 需要 购买 昂贵 的 软件 。 再 生性 的 原则 
(Gntleman 和 Temple Lang 2007) 在 科学 实验 室 非 常 重要 ， 在 这 里 也 很 重 
要 : 如 果 我 们 犯 了 一 个 错误 ， 你 可 以 发 现 它 、 解 决 它 并 观察 对 结论 的 影 
响 。 

通过 这 次 实践 工作 ， 我 们 获得 了 从 住房 数据 中 抽取 、 探 索 、 分 析 并 
最 终 得 出 有 用 的 洞察 见解 的 快乐 。 此 外 ， 我 们 希望 关于 该 策略 、 方 法 和 
技巧 的 通用 的 说 明 能 够 被 证 明 对 于 那些 和 我 们 志同道合 一 起 工作 和 从 真 
实数 据 中 学 习 的 人 有 所 帮助 。 
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第 19 章 ”美丽 的 政治 数据 





Andrew Gelman, Jonathan P. Kastellec 和 Yair Ghitza 

历史 上 最 早 的 一 些 关 于 数据 分 析 的 例子 涉及 政治 和 政府 ;甚至 单 
词 “ 统 计 ”(satistics) 也 显示 了 数据 收集 “为 了 国家 ”以 及 “和 国家 ”之 间 的 关 
系 。 一 些 统计 学 先驱 ， 包 括 Playfair、Laplace 和 Galton， 投 入 了 很 大 努力 
来 设计 和 分 析 公 共 数 据 。 在 20 世 纪 ， 统 计 学 和 Gallup 投 票 、 经 济 和 军事 
组 织 〈 五 年 计划 等 ) ， 甚 至 是 像 Svengali 一 样 的 政治 顾问 (1964 年 的 小 
说 《The 480》 的 一 个 角色 ， 作 者 还 写 了 《The Ugly American) ~ 《Fail- 
Safe》 以 及 其 他 冷战 时 期 的 最 佳 畅 销 书 ) 。 最 近 ， 电 视 观 众 已 经 开始 习 
惯 于 彩色 的 地 图 以 及 最 新 的 按照 地 区 和 人 口 分 片 的 民意 调查 和 选举 结 
果 。 还 有 后 面 更 复杂 成 熟 的 杂志 《USA Today) ~ New York Times) 
和 博客 网 站 FiveThirtyEight.com 。 

本 章 提 供 了 一 些 例子 ， 在 这 些 例 子 中 数据 可 视 化 可 以 有 助 于 加 深 我 
们 对 政治 的 理解 ， 还 带 有 做 出 每 种 选择 涉及 的 因素 的 讨论 。 在 本 章 中 ， 
我 们 的 重点 是 使 用 图 形 进 行 研究 和 演示 。 

我 们 尝试 使 用 以 下 模板 : 

MIX SER So...” 

“该 图 中 的 每 个 点 (或 每 条 线 ) 表示 .…...” 

“这 些 不 同 的 图 形 表示 .…...” 

“在 做 图 前 ， 我 们 做 了 ..….…... 但 是 它 效果 不 好 ， 因 为 .…...” 








“一 个 自然 的 延伸 是 .…...” 

我 们 并 没有 形成 一 套 完整 的 统计 图 理论 一 一 最 接近 于 此 的 尝试 是 把 
对 图 形 显 示 的 探索 和 检查 统计 模型 的 拟 合 度 关联 起 来 (Glman 2003) 
一 一 但 是 我 们 希望 这 一 小 段 内 容 对 读者 目 己 的 理解 有 所 帮助 。 我 们 认为 
RAAB DEIN CALE, Tig fe ate ce BTS LE 
的 美丽 的 工具 。 

我 们 使 用 工作 中 的 例子 来 进行 说 明 ， 不 是 因为 我 们 的 图 形 特别 漂 
亮 ， 而 是 因为 在 这 些 例子 中 ， 我 们 知道 每 个 图 形 背后 的 故事 。 














实例 1: HHT AT X6 XA GE UR fia 4f 





图 19-1 显 示 了 重新 划分 选区 对 党 派 偏好 产生 的 影响 的 估计 (重新 画 
线 将 可 以 选举 出 立法 议员 的 区 区 分 开 来 ) 。 图 中 的 每 个 点 表示 一 个 州 议 
会 选举 年 《如 1972 年 的 Missouri)， 其 纵 轴 和 横 轴 显示 在 那 次 选举 和 两 年 
前 上 一 次 选举 中 的 党 派 偏好 。 


(支持 民主 党 ) 


没有 重新 划分 选区 
0.05 





uz d 民主 党 重新 划分 选区 
ME oo 两 党 一 致 的 重新 划分 选区 
ge ~ 共和 党 重新 划分 选区 
zu 
dz 9 
EE 
-0.05 
(支持 共和 党 ) 
-0.05 0.0 0.05 
上 一 次 选举 中 估计 的 党 派 偏好 
图 : 选区 重新 划分 对 党 派 偏 好 的 影响 。 每 个 符号 表示 一 个 州 


的 选举 年 ， 点 表示 对 照 组 (没有 重新 划分 的 年 份 ) 以 及 与 不 同 的 重新 划 
分 类 型 一 致 的 其 他 符号 。 正 如 这 些 拟 合 线 所 示 ，“ 先 验 fart s 

验 ” 值 的 对 照 组 处 理 (重新 划分 ) 情况 更 具有 预测 性 。 处 理 的 显著 效果 
把 党 派 偏好 的 期 望 值 置 为 0， 而 通过 首 通 的 方法 无 法 发 现 这 种 效果 ， 
通 的 方法 是 拟 合 模型 ， 假 定 处 理 的 和 对 照 案 例 存 在 并 发 的 回归 模型 。 
图 只 能 显示 数据 中 的 关键 模式 
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“党 派 偏好 >?， 正 如 这 里 所 定义 的 ， 是 衡量 考虑 了 投票 份额 后 ， 选 举 
系统 在 多 大 程度 上 更 有 利于 民主 党 或 共和 和 党。 简单 地 说 ， 和 党派 偏好 是 民 
主 党 在 议院 立法 中 期 望 赢得 的 议席 份额 ， 如 果 它 们 的 平均 值 是 50% 的 选 
票 。 偏 好 通常 是 在 -5% 一 59%6， 意 味 着 在 一 个 州立 法 中 赢得 一 般 选 票 的 党 
派 将 会 赢得 45% 一 55% 的 议席 。 

图 中 的 小 圆 点 表示 没有 重新 划分 选区 的 “对 照 ? 情 况 ， 更 大 的 符号 对 
应 不 同类 型 的 重新 划分 ， 这 里 我 们 一 律 视 为 “被 处 理 ” 的 情况 。 选 举 每 两 
年 举行 一 次 ， 而 重新 划分 选区 通常 每 10 年 发 生 一 次 ， 因 此 绝 大 多 数 的 数 
据点 是 对 照 情况 。 对 照 情况 在 衡量 前 后 的 关联 要 远 远 大 于 被 处 理 的 情 
况 。 两 组 中 的 斜 线 区 别 应 该 是 不 足 为 怪 。 在 没有 重新 划分 选区 的 对 照 情 
况 下 ， 州 立法 几乎 没有 变化 ， 因 此 党 派 偏好 可 能 和 之 前 的 选举 没有 太 多 
变化 。 相 反 地 ， 当 重新 描绘 立法 区 时 ， 将 会 出 现 更 大 更 不 可 预测 的 变 
化 。 为 了 观察 这 种 效果 ， 在 处 理 中 对 变量 进行 建 模 是 非常 重要 的 。 

对 于 民主 党 从 重新 划分 中 获取 党 派 偏好 的 最 简单 的 方法 是 划 
出 “区 ” 线 ， 这 样 在 他 们 所 在 的 每 个 区 都 赢得 60% 的 选举 权 ， 和 共和 党 的 
加 起 来 ， 他 们 就 赢得 了 接近 100% 的 选举 权 。 然 而 ， 这 种 操纵 方式 (“不 
公正 的 选区 划分 ”) 可 能 在 实际 情况 中 是 不 可 行 的 ， 即 使 限制 所 有 区 包 
含 相同 的 人 口 和 区 之 间 的 毗连 ， 在 美国 法 院 诉 讼 中 ， 这 种 潜在 的 恶 
意 “ 不 公正 的 选区 划分 ?可 能 会 被 推翻 。 

图 19-1 是 美丽 的 ， 因 为 在 我 们 画 出 这 张 图 之 前 (Glman 和 King 
1994) ， 党 派 内 对 于 重新 划分 选区 的 讨论 集中 于 本 党 是 否 可 以 获得 较 大 
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院 可 以 试 着 为 自己 和 同事 保留 “安全 座位 ”) 。 

在 我 们 第 一 次 尝试 使 用 该 数据 来 为 选区 重新 划分 的 后 果 建 模 时 ， 我 
们 采用 了 没有 交互 的 线性 回归 模型 进行 拟 合 ， 因 此 这 样 做 就 完全 错过 了 
最 有 价值 的 内 容 。 最 终 在 将 数据 和 拟 合 回归 线 都 给 出 之 后 ， 我 们 才 注 意 
到 重点 并 采用 了 一 个 更 为 合适 的 模型 拟 合 。 

我 们 的 图 表 显 示 重 新 划分 的 主要 结果 是 降低 了 和 洛 派 俩 好 的 波动 幅度 
(而 且 也 使 得 选举 系统 更 好 地 反映 选民 ， 但 这 是 没有 显示 在 这 里 的 为 一 


个 图 形 的 主题 。) 








实例 2: 估计 的 时 间 序 列 


图 19-2 说 明了 经 典 的 逻辑 回归 (一 种 预测 “是 / 否 * 结 果 的 标准 统计 方 
法 ) 方法 的 一 个 问题 ， 以 及 如 何 使 用 所 谓 的 弱 信 息 化 的 贝 叶 斯 方法 来 解 
决 该 问题 。 对 于 从 1952 一 2000 年 每 次 美国 总 统 选 举 的 投票 数据 ， 我 们 为 
每 年 的 数据 拟 合 了 一 个 分 离 的 逻辑 回归 模型 ， 预 测 给 定 种 族 、 收 入 和 一 
些 其 他 变量 的 共和 党 人 的 投票 选择 。 

在 每 个 小 图 中 ， 每 个 点 代表 一 个 逻辑 回归 系数 ， 垂 直线 条 表示 估计 
的 不 确定 性 程度 。 点 序列 显示 了 每 种 选择 的 单独 的 估计 ， 图 形 中 的 两 行 
显示 了 种 族 和 收入 的 估计 系数 的 时 间 序 列 。《〈 为 了 简单 起 见 ， 我 们 没有 
将 其 他 的 系数 列 在 这 里 。) 图 中 的 最 左边 一 列 的 两 个 图 形 使 用 的 是 经 典 
的 估计 ， 而 最 右 侧 的 两 列 则 采用 的 是 两 种 不 同 的 贝 叶 斯 估计 《在 这 个 例 
子 中 ， 它 们 生成 的 答案 基本 相同 ) 。 

图 19-2 的 估计 结果 看 起 来 不 错 ， 除 了 1964 年 是 一 个 完全 的 分 隔 点 ， 
那 一 年 所 有 的 黑人 都 支持 民主 党 。 因 此 ， 种 族 系数 的 估计 值 是 负 无 穷 大 
一 一 也 就 是 说 ， 其 推论 是 那 一 年 黑人 选举 共和 党 的 概率 是 0%。1964 年 
共和 党 确实 不 受 黑人 选民 支持 〈 那 年 共和 党 候选 人 是 Barry Goldwater, 
他 曾经 反对 《the Civil Rights Act) ) ， 因 此 他 们 得 到 的 黑人 选票 肯定 为 
0。 这 种 回归 的 目的 ， 正 如 几乎 所 有 的 调查 分 析 一 样 ， 是 为 了 得 出 关于 
普通 人 群 的 结论 ， 而 不 仅仅 是 调查 一 个 小 样本 ， 因 此 ， 我 们 不 能 仅仅 满 
足 于 经 典 的 负 无穷 大 的 估计 结果 。 《图 19-2 左 栏 显 示 的 估计 实际 上 不 是 
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图 19-2: 左 栏 显示 了 在 一 个 逻辑 回归 中 的 两 个 预测 器 的 估计 的 系 


数值 (标准 误差 土 1) ， 预 测 共 和 党 人 会 选举 民主 党 候选 人 作为 总 统 的 
概率 ， 对 美国 选举 研究 中 心 提 供 的 从 1952~2000 年 的 每 次 选举 的 数据 进 


行 分 别 拟 合 。 数 值 变 量 收入 〈 初 始 值 规 模 是 1-5) 首先 被 集中 起 来 ， 然 
后 通过 除 以 两 种 标准 差 重 新 调整 规模 。1964 年 存在 一 个 完全 分 割 点 ( 没 
有 一 个 非洲 裔 的 选民 支持 共和 党 候选 人 Barry Goldwaten ， 导 致 那 一 年 预 
测 器 的 系数 估计 值 为 -1。 (该 估计 的 有 限 值 和 标准 误差 是 通过 多 次 使 用 
统计 建 模 工具 R 中 的 gm 有 函数 进行 迭代 确定 的 ， 直 到 程序 终止 。) 其 他 两 
列 显示 了 对 于 相同 模型 ， 使 用 不 同 的 “ 弱 信 息 ” 先 验 分 布 的 贝 叶 斯 估 
计 。 贝 叶 斯 推论 解决 了 1964 年 由 于 完全 分 割 点 导致 的 预测 器 系数 估计 值 
为 -1 的 问题 ， 而 对 其 他 年 份 的 估计 则 没有 太 多 效果 

本 图 以 及 其 他 和 它 类 似 的 图 的 优点 在 于 ， 它 的 严格 并 行 性 (1990 年 
Tufte 和 1967 年 Bertin 提 出 的 “小 倍数 ”思想 ) 允许 读者 一 一 以 及 该 图 的 创 
建 者 一 一 一 次 性 做 出 很 多 比较 。 

贝 叶 斯 方法 ， 正 如 图 19-2 的 最 右 侧 两 栏 所 示 ， 为 1964 年 的 黑人 选民 
系数 生成 了 一 个 合理 的 值 一 低 于 1952 一 2000 年 中 的 任何 一 年 ， 而 且 有 
更 大 的 不 确定 性 边界 ， 但 不 是 无 限 的 。 在 解决 该 问题 时 ， 贝 叶 斯 程序 并 
没有 混合 其 他 年 份 或 者 模型 中 的 其 他 变量 的 系数 估计 《正如 图 中 第 二 行 
的 收入 系数 所 示 ) 。 

该 图 谈 不 上 漂亮 ， 但 是 它 说 明了 一 条 重要 且 通 用 的 原则 ， 即 图 形 化 
不 仅仅 只 是 为 原始 数据 做 的 。 统 计 学 中 常见 的 实践 是 在 一 张 表 中 显示 这 
种 结果 ， 但 是 好 的 图 形 可 以 通过 更 少 的 空间 显示 更 多 的 信息 (Glman 等 
2002) 。 

从 我 们 的 角度 考虑 ， 以 图 形 的 方式 展示 参数 估计 有 助 于 向 别人 表达 








我 们 的 方法 的 有 效 性 ， 同 时 也 可 以 进一步 证 实 我 们 的 估计 序列 是 合理 
的 ， 而 将 估计 系数 放 到 一 个 表格 中 的 方式 (或 者 更 经 典 的 计算 机 输出 的 
很 长 的 序列 ) 将 无 法 达到 这 种 效果 。 





实例 3: FERS AAS 


紧 随 奥巴马 的 历史 性 选举 之 后 ， 产 生 了 一 个 年 轻 选民 在 获胜 联盟 中 
发 挥 很 大 作用 的 推测 。 选 举 后 民意 测验 数据 显示 奥巴马 在 年 轻 人 当中 特 
别 受 欢迎 ， 但 是 这 真 的 很 有 新 闻 价 值 吗 ? 举 个 例子 ， 政 治 顾问 Mark 
Penn 在 《New York Times》 的 网 站 上 写 道 :“ 显 然 ， 绝 大 多 数 年 轻 人 都 
选 奥巴马 ， 但 是 他 们 也 非常 支持 John Kerry。”Penn 的 看 法 是 正确 的 吗 ? 

和 通常 一 样 ， 做 出 比较 的 最 清晰 的 方式 是 使 用 图 形 。 图 19-3 显 示 了 
结果 有 四 个 版 本 : 第 一 个 版 本 是 我 们 在 选举 夜 做 出 的 基本 图 形 (从 CNN 
网 站 上 得 到 的 选 后 民意 调查 数据 ) ， 然 后 一 个 学 生 在 web 上 注意 到 了 我 
们 的 图 形 ， 并 发 布 了 一 份 升 级 版 ; 然后 我 们 发 布 了 自己 的 包含 了 更 广 时 
间 序 列 的 图 形 。 在 每 个 这 种 图 形 中 ， 点 和 线 连接 ， 点 表示 共和 党 候选 人 
在 最 近 几 次 选举 中 在 四 个 不 同年 龄 组 中 每 个 分 组 所 占 的 两 党 选票 的 比 
例 。 显 然 2008 年 是 不 同 的 ， 因 此 Mark Penn 错 了 一 一 这 是 权威 人 士 只 看 
数字 不 看 宏观 形势 的 案例 。 这 就 是 万 有 图 形 的 共同 优势 : 一 次 性 显示 所 
有 细节 和 模式 。 

要 了 解 实际 的 更 为 宏观 的 状况 ， 还 需要 大 量 的 研究 ， 而 且 我 们 并 不 
认为 这 些 揭 示 了 一 些 简单 模式 的 图 形 从 任何 角度 可 以 代 蔡 有 关 随 着 年 龄 
模式 和 选举 的 时 间 推 移 的 变化 模式 的 更 严肃 的 研究 。 
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图 19-3: 几 张 显示 最 近 几 届 美 国 总 统 选举 的 选票 年 龄 纬度 的 分 布 模式 
图 

左上 图 是 我 们 的 第 一 次 尝试 ， 基 于 即时 的 选 后 民意 调查 数据 ， 在 选 
举 之 夜 生 成 的 。 右 上 图 是 Hober Short 创 建 的 ，Hober Short 是 一 个 学 生 ， 
他 在 Web 上 看 到 了 我 们 的 图 ， 自 己 做 了 一 个 ，x 轴 是 选举 时 间 。 左 下 图 
是 基于 Short 的 图 的 “简洁 版 "， 把 所 有 四 个 年 龄 分 组 直接 在 图 中 的 线条 上 
标注 出 来 。 所 有 这 些 图 显示 了 2008 年 相对 于 在 其 之 前 的 两 次 选举 的 重大 
变化 。 最 后 ， 右 下 图 把 数据 扩展 到 1988 年 ， 显 示 了 1996 年 Bil Clinton 也 
很 受 年 轻 人 支持 一 一 和 奥巴马 一 样 ， 他 也 是 一 个 年 轻 的 民主 党 ， 对 手 是 
年 老 的 共和 党 一 一 但 是 没有 达到 奥巴马 在 2008 年 受 欢 迎 的 程度 。 

这 些 图 显示 了 在 制作 即使 是 最 简单 可 行 的 图 形 时 的 选择 。 正 如 在 很 
多 的 政治 背景 中 ， 最 大 的 收入 来 自 于 组 合 额外 的 数据 一 一 在 这 种 情况 
下 ， 比 较 2008 年 和 其 之 前 的 年 份 ， 比 较 年 轻 的 选举 人 和 那些 年 老 的 选举 





人 ， 以 及 比较 三 个 其 他 年 龄 组 和 另 一 个 〈 在 最 后 比较 中 缺乏 变化 性 ， 成 
为 特别 重点 研究 年 轻 人 的 选票 趋势 的 动力 ) 。 

此 外 ， 我 们 通过 重点 研究 民主 和 党 而 不 是 共和 和 党 的 选票 《〈 由 于 奥巴马 
在 年 轻 选民 中 很 受 关 注 ， 这 种 方式 更 合适 ) 以 及 给 图 形 添加 更 有 描述 性 
的 标题 来 改进 图 形 。 


实例 4:， RF Bei bebe dn AA RE AS AL 
Dimes 


美国 参议 院 做 出 的 决议 很 少 可 以 像 确认 或 者 拒绝 最 高 法 院 提名 人 的 
投票 一 样 向 公众 公开 。 但 是 ， 很 多 州 选票 的 结果 ， 比 如 开支 法 案 或 者 修 
改 法 规 ， 在 详细 的 过 程 中 是 不 明确 或 者 模糊 的 ， 但 最 高 法 院 提名 表决 的 
结果 是 很 明显 的 : 或 者 确认 该 提名 人 ， 人 允许 她 在 国家 的 最 高 法 院 任职 ， 
或 者 拒绝 该 提名 人 ， 迫 使 总 统 提 名 另 一 个 候选 人 (Kstellec 等 2008) 。 参 
议员 在 投票 时 是 否 遵从 国家 级 别 的 公众 意见 ? 

图 19-4 通 过 把 州 级 别 的 公众 对 九 名 最 高 法 院 法 官 被 提名 人 的 意见 和 
参议 员 们 对 他 们 的 投票 结果 之 间 的 关系 放 到 一 张 图 中 的 方式 初步 回答 了 
该 问题 。 在 每 个 图 形 中 ， 曲 线 显 示 了 一 个 参议 员 投 赞成 票 的 概率 相对 于 
参议 员 所 在 州 的 公众 意见 的 变化 规律 。 黑 色 实 线 是 拟 合 的 逻辑 回归 的 估 
计 曲 线 ， 而 灰色 线条 集群 描绘 了 这 种 估计 的 不 确定 性 。 散 列 标记 (或 者 
称 “ 小 地 毯 图 片 >) 表示 赞成 (“1”) 和 反对 〈“0”) 提名 人 的 选票 ， 而 在 
每 个 图 的 右 下 角 的 数字 表示 该 被 提名 人 的 总 票数 。 底 部 的 图 把 所 有 的 被 
提名 人 都 放 到 一 起 。 我 们 通过 为 每 个 被 提名 人 增加 均值 的 支持 度 ， 使 得 
图 形 曲 线 平 铺 开 来 ， 渐 次 向 下 。 
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图 19-4: 州 内 公众 的 意见 和 该 州 的 参议 员 在 最 高 法 院 被 提名 人 投 
票 之 间 的 关联 关系 。 对 于 每 个 被 提名 人 ， 黑 色 线 条 描绘 的 是 一 个 州 的 参 
议员 投 赞成 票 的 概率 相对 该 州 的 公众 与 论 的 逻辑 回归 曲线 。 浅 灰色 线条 
描绘 了 在 这 些 估计 中 的 不 确定 性 。 散 列 标识 表示 对 被 提名 人 的 赞成 
( 1 ) 和 反对 (“0”) 的 选票 ， 而 在 每 个 图 的 右 下 角 的 数字 表示 参 
议院 的 总 票数 。 最 下 面 的 图 把 所 有 的 提名 人 结合 在 了 一 起 。 该 图 的 美丽 
在 于 它 将 原始 数据 和 简单 的 推理 模型 融合 在 了 一 张 图 中 

该 图 表明 虽然 在 不 同 被 所 名 人 之 间 有 区 别 ， 但 公众 舆论 和 投 赞成 紧 
之 间 通 常 成 正比 天 系 。 坚 不 奇怪 ， 拥 有 一 边 倒 的 赞成 选票 的 被 提名 人 存 





在 更 大 的 不 确定 性 。 同 时 , “BTA Wen A Ries, GEOR, B8 
着 州 内 公众 对 提名 人 的 文 持 的 增长 ， 该 州 的 参议 员 更 有 可 能 会 投 赞成 
票 。《〈 这 种 关系 依然 成 立 ， 即 使 一 个 人 控制 了 唱 名 投票 的 其 他 预测 因 
子 ， 如 被 提名 人 的 能 力 以 及 参议 员 和 被 提名 人 之 间 的 观念 差距 。) 

该 图 之 美 在 于 它 把 原始 数据 和 简单 的 推理 之 美 结合 起 来 。 通 第 来 
说 ， 二 元 天 系 是 通过 表格 形式 显示 的 。 在 这 个 例子 中 ， 这 么 做 需要 9 个 
关联 系数 或 者 回归 系数 ， 以 及 9 个 回归 模型 的 标准 错误 ， 这 会 使 得 表格 
很 丑陋 ， 使 它 难以 对 公众 与 论 和 为 每 个 航 提 名 人 投票 之 间 的 关系 进行 可 
视 化 ， 而 且 对 于 不 同 被 提名 人 之 间 的 比较 也 变 得 困难 。 我 们 在 图 中 包含 
的 真正 数字 《我 们 通过 不 显眼 的 方式 ， 不 会 转移 对 图 形 本 身 的 注意 力 ) 
古 唱 名 投票 差 值 ， 它 易于 理解 而 且 为 读者 反映 出 每 次 提名 苋 争 的 激烈 程 
度 。 最 后 ， 如 图 19-2 所 示 ， 使 用 小 乘 数 允许 读者 瑟 上 做 出 一 些 比较 ， 避 
免 在 一 张 图 中 出 现 信息 过 载 。 











实例 5: TRA X SEMIN ASH SE UK 


1986 年 ， 政 治 战略 家 詹姆斯 : 卡 维尔 ， 后 来 主持 克林顿 的 首次 总 统 竞 
选 ， 认 为 宾夕法尼亚 州 是 Paoli 和 Penn Hills 以 及 它们 之 间 的 Alabama。 
Paoli 是 费城 的 一 个 郊区 ，Penn Hills 是 匹兹堡 的 一 个 郊区 ， 因 此 卡 维尔 
指 的 是 这 两 个 长 期 “摇摆 州 ”(sing state) 的 市 中 心 是 民主 党 的 堡垒 ， 而 该 
州 剩 下 的 农村 地 区 是 共和 党 的 支持 区 。 

卡 维尔 的 话 意味 着 公众 和 最 高 级 别 的 政治 专家 广泛 存在 的 把 国家 分 
成 “ 红 区 ”和 “ 蓝 区 ”的 想法 。 对 于 绝 大 多 数 熟 悉 21 世 纪 竞 选 的 美国 人 来 
说 ， 关 于 最 近 美 国政 治 的 最 深刻 的 印象 之 一 是 从 2000 一 2004 年 无 处 不 在 
的 选举 地 图 ， 以 北方 和 西海 尾 是 “ 蓝 区 ” 州 ， 璀 方 和 中 心地 区 为 “ 红 区 ” 州 
为 特征 。 虽 然 当选 为 总 统 的 奥巴马 坚持 我 们 不 是 一 个 “ 红 区 ? 州 和 * 蓝 
区 2? 州 的 集合 ， 但 是 这 种 根深 带 固 的 形象 很 难 被 克服 。 

图 19-5 展 示 了 卡 维尔 对 宾夕法尼亚 州 的 描述 以 及 查看 地 理 党 派 的 不 
同方 式 ， 基 于 新 的 和 令 人 兴奋 的 数据 类 型 以 及 丰富 的 可 视 化 技术 。 地 图 
下 侧 显 示 了 通过 2004 年 总 统 大 选 公 布 的 数据 对 宾夕法尼亚 州 的 不 同 地 区 
着 色 ， 蓝 色 表 示 对 民主 党 候选 人 John Kerry 的 支持 度 更 高 ， 红 色 表 示 对 
共和 党 候选 人 George W.Bush 的 支持 度 更 高 ， 紫 色 表 示 居 于 二 者 之 间 。 
通过 使 用 连续 的 红色 -紫色 - 蓝 色 模 式 ， 而 不 是 更 普通 的 红色 实 线 或 蓝 色 
实 线 来 表示 每 个 县 的 胜出 者 ， 我 们 可 以 更 好 地 对 整个 州 范围 内 党 派 的 变 
化 程度 进行 可 视 化 。 





























该 地 图 的 最 上 层 一 一 分 散 的 圆柱 面 一 一 显示 了 在 该 州 随机 选取 的 
4000 个 注册 的 投票 人 样 例 的 本 地 化 的 和 尝 派 。 本 地 化 党派 是 衡量 民主 党 或 
者 共和 党 在 每 个 社区 的 集中 程度 。 特 别 地 ， 它 是 定义 为 居住 在 1 公里 范 
围 内 文 持 民主 党 的 人 们 的 比例 。 每 个 圆柱 面 都 是 基于 在 投票 人 的 住宅 为 
中 心 ， 以 1 公里 范围 内 为 界限 ， 因 此 复制 该 党 派 衡量 方式 的 区 域 。 师 色 
圆柱 面 表示 更 文 持 民主 党 的 地 区 一 一 这 次 考虑 个 人 层次 的 注册 一 一 红色 
圆柱 面 表示 更 文 持 共和 和 党 的 地 区 ， 而 紫色 表示 介 于 二 者 之 间 的 区 域 。 

















图 19-5: 宾夕法尼亚 州 的 地 理 党 派 。 基 础 层 显 示 了 根据 2004 年 总 统 
竞选 公布 的 数据 对 宾夕法尼亚 州 进行 的 分 块 着 色 显 示 ， 蓝 色 表 示 对 民主 
党 候选 人 John Kerry 的 支持 度 更 高 ， 红 色 表 示 对 共和 党 候选 人 George 
W.Bush 的 支持 度 更 高 ， 而 紫色 分 区 表示 介 于 这 二 者 之 间 。 分 散 的 柱 面 图 
表示 对 于 该 州 4000 个 随机 注册 的 投票 人 的 本 地 党 派 ， 定 义 为 居住 在 1 公 
里 范围 内 支持 民主 党 的 人 们 的 概率 。 每 个 圆柱 面 都 是 基于 在 投票 人 的 住 
宅 为 中 心 ，1 公 里 范围 内 为 界限 ， 因 此 复制 该 党 派 衡量 方式 的 区 域 。 蓝 





色 圆 柱 面 表示 更 支持 民主 党 的 地 区 一 一 这 次 考虑 个 人 层次 的 注册 一 一 红 
色 圆 柱 面 表示 更 支持 共和 党 的 地 区 ， 而 紫色 表示 介 于 二 者 之 间 的 区 域 。 
该 图 之 美 在 于 它 显 示 了 在 国家 级 别 、 州 级 别 ， 甚 至 是 县 级 别 ， 红 区 和 蓝 
区 的 思想 观念 的 复杂 性 〈 见 彩 图 69) 

该 图 之 美 在 于 它 显示 了 在 国家 级 别 、 州 级 别 ， 甚 至 是 县 级 别 ， 红 区 
和 蓝 区 的 思想 观念 的 复杂 性 。 虽 然 有 时 很 容易 想起 红色 的 州 和 蓝 色 的 
州 ， 但 是 该 图 说 明了 在 社区 级 别 ( 甚 至 是 个 人 级 别 ) 还 有 和 紫色。 在 费城 
之 外 ， 该 州 最 大 的 城市 ， 你 可 以 发 现 一 些 红色 的 社区 。 相 反 地 ， 即 使 是 
在 该 州 中 部 最 红 的 县 ， 仍 然 存在 紫色 和 蓝 色 区 域 。 

该 图 之 美 还 在 于 它 证 明了 我 们 通常 持 有 的 信念 可 能 受到 挑战 ， 以 及 
我 们 的 理解 可 以 通过 认真 地 数据 分 析 和 可 视 化 进一步 加 深 。 该 图 使 用 了 
Catalist 提 供 的 数据 ，Catalist 是 一 家 公司 ， 它 维护 所 有 在 美国 的 选举 年 龄 
的 个 人 的 国家 数据 库 。 正 如 详细 的 和 大 规模 的 数据 源 变 得 越 来 越 容易 访 
问 ， 多 层 可 视 化 技术 可 以 帮助 我 们 使 用 数据 来 了 解 我 们 周围 的 世界 。 














结论 





政治 数据 越 来 越 容易 获取 ， 而 且 在 媒体 和 Web 上 越 来 越 多 地 被 描绘 
和 分 译 。 在 研究 领域 ， 政 治 科学 期 刊 的 文章 开始 利用 图 形 技 术 来 发 现 和 


展示 结果 。 从 NationMaster.com 到 Name 





Voyager(http: /www.babynamewizard.com/voyagen 的 在 线 工 具 变 得 越 来 
越 吻 于 使 用 ， 这 些 工具 可 以 导出 数据 ， 如 Hans Rosling 的 TED 演 讲 变 得 
非常 受 欢 迎 。 我 们 期 望 统 计 可 视 化 在 政治 分 析 上 变 得 更 重要 和 更 广泛 。 
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第 20 章 “连接 数据 


Toby Segaran 

每 年 ， 人 们 都 能 发 明 数 十 种 新 的 或 改进 的 统计 和 机 器 学 习 技术 来 杭 
理 各 种 数据 集 。 这 些 技术 几乎 无 一 例外 地 拥有 如 下 共同 点 : 假定 存在 一 
个 干 滔 的 数据 集 ， 该 数据 集 包 含 现 有 任务 需要 的 所 有 信息 ， 而 这 样 的 数 
据 集 在 现实 世界 中 通常 是 无 法 找到 的 。 正 如 亚马逊 的 前 首席 科学 家 
Andreas Weigend 所 言 : “人 们 总 是 问 ' 何 种 伟大 的 技术 可 以 应 用 在 这 个 数 
据 集 上 ，， 而 实际 上 他 们 应 该 问 的 是 “能 够 获取 到 的 最 好 的 数据 集 是 什 
ar: 

同时 ， 科 学 家 们 每 天 通过 研究 和 实验 生成 TB 量 级 的 数据 ， 并 把 它们 
放 到 网 上 ; 全 世界 的 各 地 政府 允许 下 载 他 们 在 行政 中 收集 的 数据 ;而 用 
户 生 成 的 内 容 的 “繁衍 ”创造 了 大 量 的 餐馆 数据 库 、 科 幻 小 说 以 及 街道 的 
地 理 位 置 ， 而 在 此 之 前 根本 就 没有 全 面 的 数据 。 因 此 ， 很 多 数据 是 可 以 
获取 的 ， 但 是 除了 极 少数 的 专家 善于 利用 这 些 数 据 外 ， 其 他 人 很 少 使 用 
一 一 对 于 其 他 所 有 人 来 说 ， 不 能 利用 这 些 数据 是 很 让 人 遗憾 的 ， 如 果 充 
分 利用 ， 那 么 一 篇 文章 的 一 页 或 者 两 页 ， 其 价值 可 能 会 高 出 10 多 倍 。 

我 相信 当前 数据 “牧羊 人 ”的 最 大 挑战 和 机 遇 在 于 连接 不 同 的 数据 
集 ， 以 便 创 建新 的 数据 集 进 行 分 析 ， 并 且 充 分 利用 数据 的 繁衍 性 ， 已 经 
研究 出 来 的 新 技术 以 及 可 用 的 令 人 不 可 思议 的 硬件 资源 。 自 从 数据 库 产 
生 之 后 ， 数 据 集 成 一 直 是 一 个 问题 。 但 是 对 于 研究 人 员 或 者 好 奇 的 个 人 




















可 以 获取 的 潜在 相关 的 数据 量 比 原来 大 了 好 几 千 倍 
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方方面面 。 因 此 ， 在 本 章 中 ， 我 不 会 讨论 某 个 项 目 ， 而 是 要 采用 不 同 于 
本 书 中 多 数 划 市 所 采用 的 方式 ， 转 而 探讨 我 从 多 年 的 项 目 中 汲取 的 经 
验 。 


该 问题 已 经 从 企 
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在 Freebase(http: /www.freebase.com) 中 工作 时 ， 我 研究 了 数 以 百 计 
的 数据 集 ， 这 些 数据 集 本 身 很 有 趣 ， 但 是 当 作 为 其 他 数据 集 的 增强 和 提 
供 上 下 文 时 ， 则 变 得 更 有 趣 。 这 些 数据 集 来 自 非 营利 机 构 、 政 府 、 公 司 
和 基层 的 努力 。 以 下 给 出 了 数据 集 来 源 的 一 个 大 列表 (但 是 数据 样本 很 
小 ) ， 以 给 读者 : 

责任 政治 中 心 (htp: //opensecrets.org) 公 布 了 美国 的 政治 候选 人 收 到 
的 个 人 捐款 的 数量 。 

:很 多 国家 提供 在 线 的 人 口 普查 数据 。 在 美国 ， 你 可 以 从 
http: /Wwww.census.gov 网 站 上 下 载 人 口 普 查 数据 。 

-Geonames(http: //www. geonames.org) 数 据 库 包 含 了 世界 各 地 著名 地 
方 的 经 度 、 纬 度 、 包 含 的 内 容 以 及 级 别 。 

.美国 证 券 交 易 委 员 会 (htp: //sec.gov) 提 供 在 美国 证 券 交 易 所 上 市 的 
所 有 公司 的 可 下 载 的 财经 数据 。 

:如 环境 保护 局 (htp: /Wepa.gov) 这 样 的 机 构 提供 关于 茶 些 地 方 的 环境 
污染 以 及 产生 这 些 污 染 的 设施 的 可 下 载 的 信息 。 

一 个 特别 有 用 的 资源 是 商标 数据 库 (htp: /uspto.gov)， 可 以 用 它 来 
发 现 哪些 公司 拥有 哪些 品牌 ， 这 些 品 牌 名 称 的 卖点 是 什么 以 及 更 重要 的 
和 所 有 不 同 品牌 相关 的 艺术 。 

很 多 社会 网 络 允 许 下 载 很 多 信息 子 集 ， 包 括 关 系 和 其 他 的 如 位 置 之 

















-几乎 和 每 个 可 消费 产品 相关 的 营养 信息 〈 卡 路 里 、 脂 肪 量 等 ) 都 可 
以 从 美国 农业 部 获取 (htp: /usda.gov)。 

:国家 生物 技术 信息 中 心 (NBI; http: //ncbi.nlm.nih.gov) 发 布 了 很 多 包 
含 了 与 遗传 和 医疗 信息 相关 的 数据 库 ， 包 括 Genbank、Pubmed、 基 因 和 
dbSNP 数 据 库 。 

许多 城市 或 州 的 卫生 部 门 发 布 了 关于 餐饮 饭馆 检查 的 数据 ， 它 是 关 
于 城市 中 包含 哪些 餐饮 饭馆 以 及 它们 是 否 干净 的 一 个 很 好 的 免费 数据 
源 。 

很 多 机 构 比 如 联邦 医疗 保险 (htp: //medicare.gov) 和 美国 食品 和 药物 
管理 局 (htp: /www.fda.gov) 提 供 了 大 量 的 可 下 载 的 关于 药品 的 用 途 、 成 
本 和 用 法 的 数据 。 

在线 留 言 板 通常 提 及 公司 、 产 品 和 场所 以 及 可 以 从 中 挖掘 情绪 和 人 
际 关 系 的 文本 。 你 会 发 现 ， 虽 然 这 些 资源 很 多 来 自 完 全 不 同 的 地 方 ， 但 
是 它们 谈论 的 却 是 非常 相似 的 东西 。 这 是 我 所 探索 的 问题 的 本 质 一 一 当 
两 个 数据 库存 储 相同 的 东西 时 ， 如 何 识 别 ? 正如 您 将 在 本 章 的 剩余 部 分 
所 看 到 的 ， 这 是 一 个 很 难 的 问题 ， 但 是 解决 这 个 问题 可 以 挖掘 带 来 很 多 
令 人 兴奋 的 各 种 可 能 性 。 



































连接 数据 的 可 能 性 


早 在 20 世 纪 80 年 代 ， 我 看 了 一 部 名 叫 《Wall Street》 的 电影 ， 有 一 个 
场面 始终 给 我 非常 深刻 的 印象 ， 由 Charlie Sheen 扮 演 的 一 个 年 轻 的 股票 
经 纪 人 给 他 后 来 的 导师 (由 Michael Douglas 扮 演 ) 提供 了 一 份 非常 有 先 
见 之 明 的 股票 情报 。 在 该 情报 被 证 实 非 常 精确 之 后 ，Douglas 告 诉 Sheen 
说 他 知道 该 公司 工会 的 主席 是 Sheen 的 父亲 。 这 意味 着 Douglas 手 下 的 研 
究 人 员 可 以 发 现 人 们 和 公司 的 关系 ， 而 在 那 时 ， 它 促使 我 思考 数据 连接 
在 一 起 可 以 做 什么 事情 。 

当然 ， 在 以 上 场景 下 ， 这 听 起 来 让 人 有 点 毛骨悚然 ， 但 这 正 是 像 证 
券 和 交易 委员 会 (Scurities and Exchange Commission,SEC) 这 样 的 机 构 为 
了 发 现 葡 诈 和 内 幕 交 易 ， 通 过 手工 所 做 的 研究 。 和 暂时 抛 开 个 人 隐私 问题 
和 如 家 性 关系 这 样 的 个 人 数据 ， 而 是 考虑 如 果 几 百 个 公共 数据 源 能 够 结 
合 在 一 起 ， 我 们 可 以 发 现 不 同事 物 之 间 的 关系 ， 那 将 会 发 生 什么 事情 
呢 ? 我 们 会 发 现 什 么 ? 

以 下 是 一 些 即兴 的 想法 来 启发 你 。 你 很 可 能 对 实施 这 些 想法 没有 任 
何 兴趣 ， 但 是 希望 这 些 想 法 可 以 引导 你 产生 自己 的 关于 数据 连接 的 想 
To 

使 用 商标 数据 ， 我 们 可 以 确定 哪些 公司 为 不 同 的 品牌 服务 ， 我 们 可 
能 会 结合 美国 农业 部 (Uited States Department of Agriculture, USDA) f= 
养 学 数据 ， 以 便 确定 哪个 公司 生产 最 多 的 含 糖 饮 料 。 我 们 还 可 以 对 商标 




















数据 进行 商标 标识 分 类 ， 查 看 卡通 是 否 更 经 常 被 用 于 销售 高 热量 的 产 
品 。 我 们 还 引入 更 多 的 数据 ， 使 用 美国 环境 保护 局 (EA) 的 数据 来 查看 不 
同 地 方 企业 的 污染 量 ， 以 及 这 些 数据 和 公司 产品 的 销售 情况 的 相互 关联 
XA. 

把 地 理 数 据 库 如 Geonames 和 社交 网 络 结合 起 来 ， 我 们 可 以 判断 人 们 
的 地 理 位 置 和 距离 对 他 们 成 为 朋友 的 可 能 性 所 产生 的 影响 。 把 这 些 影响 
关系 和 人 口 普查 数据 结合 起 来 可 以 告诉 我 们 人 们 成 为 朋友 是 否 受 到 地 理 
位 置 或 者 人 口 统计 的 影响 《小 城镇 的 人 们 是 否 关系 更 密切 ? 未婚 率 高 的 
人 口 是 否 与 更 多 的 社交 网 络 使 用 相关 ? ) 。 在 政治 方面 ， 我 们 可 以 把 证 
券 交 易 委 员 会 的 哪个 公司 属于 哪个 行业 的 数据 和 责任 政治 中 心 (Cnter for 
Responsible Politics,CRP) 提 供 的 政治 贡献 相关 的 数据 结合 起 来 。 这 可 以 
帮助 我 们 确定 哪个 行业 给 哪个 政治 党 派 捐 赠 最 多 。 图 20-1 显 示 了 一 些 饼 
图 ， 用 于 证 明 这 种 特定 方式 的 数据 混搭 。 


图 20-1: 证 券 交 易 委 员 会 的 数据 和 责任 政治 中 心 提供 的 政治 贡献 相关 
的 数据 的 饼 图 〈 见 彩 图 70) 
我 甚至 还 没有 谈 及 股票 价格 和 留言 板 上 的 情绪 分 析 之 间 的 关系 ， 试 


看 把 遗传 和 药物 数据 结合 起 来 ， 或 者 判断 在 收入 低 的 小 区 的 餐馆 是 否 卫 
生 更 差 ( 根 据 健康 检查 员 的 报告 ，》， 但 是 这 只 会 使 你 对 不 同 数据 源 连 接 














起 来 后 带 来 的 可 能 性 有 略微 的 了 解 。 遗 憾 的 是 ， 数 据 集 之 间 的 自动 连接 
很 复杂 ， 其 至 接近 不 可 能 。 在 上 个 例子 中 ， 我 们 获取 证 券 交 易 委员 会 的 
数据 ， 它 根据 名 字 列 出 各 个 公司 ,但 是 为 了 在 证 券 交 易 委 员 会 找到 公 
司 ， 我 们 需要 中 心 索引 关键 字 (Cntral Index Key,CIK)。 更 进一步 ， 像 
Exxon Mobile 这 样 的 公司 通常 不 是 分 类 为 “能 源 ” 公 司 ， 而 是 更 具体 的 “ 石 
油 勘探 ”公司 ， 因 此 ， 为 了 发 现 所 有 的 能 源 公司 ， 我 们 需要 建立 哪个 公 
司 属于 哪个 行业 子 集 的 层次 分 类 。 














企业 内 部 


我 们 认为 对 Web 上 的 数据 源 进行 整合 是 一 个 很 大 的 挑战 ， 但 是 这 种 
挑战 的 缩影 却 是 无 处 不 在 。 通 常 ， 大 公司 内 部 有 一 些 数据 库存 储 了 相同 
的 数据 项 ， 但 是 这 些 数据 库 之 间 却 无 法 进行 查询 或 者 员工 都 无 法 知道 他 
们 感 兴趣 的 数据 就 存储 在 与 他 们 一 起 工作 的 某 个 同事 所 维护 的 数据 库 
里 ， 这 些 问 题 让 人 震惊 〈 人 至 少 当 我 注意 到 这 个 问题 时 》 。 这 个 问题 通常 
被 称 为 “信息 仓库 问题 ”， 指 出 信息 被 清晰 地 分 隔 开 来 ， 而 且 绝 大 多 数 情 
况 下 是 不 可 访问 的 一 一 像 仓库 里 的 一 粒 稻谷 〈 我 一 直 认 为 隐喻 可 以 达到 
涵义 延伸 的 效果 )。 

当 我 在 生物 技术 行业 工作 ， 与 很 多 制药 公司 探讨 它们 的 数据 集成 方 
案 时 ， 这 个 问题 显得 非常 突出 。 在 很 多 情况 下 ， 公 司 的 管理 结构 和 极 分 为 
医疗 领域 (重点 研究 疾病 家 族 ) 。 这 些 领 域 的 人 们 可 能 采用 特定 的 目标 
抹 昌 质 集 来 得 找 药品 或 者 寻找 遗传 标记 来 预 训 茶 种 药物 是 否 有 效 ， 他 们 
所 有 的 时 间 都 在 执行 成 本 郧 贯 的 实验 ， 在 这 些 基 因 、 香 白质 及 其 化 合 物 
上 构建 大 的 知识 集 。 

同时 ， 公 司 其 他 部 门 的 同事 ， 或 者 可 能 提早 完成 项 目的 研究 人 员 ， 
通常 研究 或 者 已 经 研究 了 相同 的 或 者 相似 的 基因 、 集 昌 质 及 其 化 合 物 ， 
因此 可 能 错过 了 一 些 重要 的 深刻 的 见解 和 重复 的 实验 。 

想 想 为 什么 会 有 这 样 的 问题 : 即使 假定 所 有 人 都 同意 了 某 种 模式 和 
查询 机 制 ， 也 不 能 保证 人 们 会 使 用 相同 的 术语 来 描述 他 们 的 实验 。 应 该 












































使 用 什么 字段 以 及 如 何 搜索 ?比如 “肺癌 ”实验 而 男 一 个 人 却 把 它 描述 
为 “ 腺 瘤 ”。 很 多 工作 组 都 已 经 尝试 创建 受 控 的 词汇 和 固定 的 模式 使 得 更 
容易 发 现实 验 ， 但 是 目前 为 止 没 有 一 个 人 完全 真正 破解 这 个 问题 。 

生物 技术 实际 上 走 在 了 前 列 ， 因 为 它 至 少 已 经 明确 了 该 问题 ， 而 且 
做 出 了 严 译 的 工业 范畴 内 的 努力 来 解决 这 个 问题 。 而 为 一 方面 ， 最 近 美 
国 的 银行 投资 的 失败 问题 则 很 突出 ， 没 有 人 知道 他 们 的 股票 经 纪 人 的 并 
场 是 什么 ， 而 股票 经 纪 人 自己 也 无 法 知道 他 们 是 否 对 房间 里 的 茶 个 人 持 
反对 立场 。 如 果 数 据 连接 太 少 是 一 个 问题 ， 那 么 连接 不 应 该 连接 的 事物 
则 会 成 为 更 大 的 问题 。 举 个 例子 ， 政 府 已 经 做 出 了 一 些 万 众 瞩 目的 和 案 
例 ， 比 如 错误 地 确定 茶 些 人 是 您 怖 分 子 或 者 拒绝 某 人 登 机 仅仅 因为 他 们 
和 已 知 的 被 怀疑 的 人 有 相同 的 名 字 。 

这 些 当然 不 是 局 限于 大 公司 或 者 特定 行业 的 信息 。 即 使 是 小 公司 ， 
也 存在 使 客户 和 员工 资料 结合 起 来 的 问题 。 


























连接 数据 的 障碍 


希望 你 已 经 相信 把 不 同 数据 源 的 数据 整合 起 来 有 很 大 优势 。 但 是 存 
在 一 些 原 因 ， 使 得 人 们 并 没有 做 这 件 事 .……… 

展现 问题 

试图 连接 数据 集 所 面临 的 最 基本 的 问题 可 能 是 很 多 数据 存储 在 非常 
不 灵活 的 结构 中 。 首 先 ， 在 科学 和 商业 中 ， 有 惊人 数据 量 的 数据 就 存储 
在 Excel 表 单 ， 保 存在 人 们 本 地 的 计算 机 中 ， 其 他 人 无 法 访问 ， 而 且 不 
古 为 整合 而 做 出 的 设计 。 

即使 在 数据 库 可 以 访问 的 公司 ， 数 据 通 常 是 存储 在 关系 数据 库 中 ， 
很 多 都 是 预先 定 义 适 合 最 初 设计 时 认为 重要 的 模式 。 图 20-2 最 示 了 餐馆 
数据 的 关系 模式 的 一 个 简单 例子 。 这 对 于 大 的 、 可 预测 的 数据 集 很 好 ， 
因为 当 配 置 调 整 很 少时 ， 关 系数 据 库 的 性 能 非常 里 越 ， 但 是 当 应 用 需要 
新 的 数据 类 型 、 新 的 字段 或 者 需要 经 常 添加 新 的 关系 时 ， 这 些 都 对 关系 
数据 库 提 出 了 难题 。 

我 见 过 人 们 通过 很 多 种 方式 来 解决 这 个 问题 ， 但 是 有 两 种 方式 很 突 
出 ， 主 要 是 因为 这 两 种 解决 方法 刚好 相反 。 传 统 的 解决 方式 是 不 断 地 重 
构 数据 库 ， 创 建新 表 ， 给 已 有 表 增 加 新 的 字段 ， 这 个 过 程 可 能 代价 很 
高 ， 很 容易 犯错 误 且 很 慢 。《〈 由 于 篇 幅 问 题 ， 我 在 这 里 就 不 再 更 述 其 他 
例子 ， 但 古 每 当 我 痰 到 这 个 问题 时 ， 总 有 很 多 人 点 涉 。) 这 种 解决 方式 
使 得 模式 变 得 越 来 越 复 杂 ， 最 终 使 得 整个 模式 变 得 过 于 复 杀 ， 难 以 可 视 









































化 和 理解 。 

我 见 过 的 妨 一 种 解决 方式 是 简单 地 构建 一 个 非常 基础 的 数据 库 模 
式 ， 它 可 以 支持 任何 类 型 的 数据 。 通 常 的 实现 方式 是 有 一 个 实体 表 、 一 
个 关系 表 以 及 如 图 20-3 所 示 的 UML 图 。 





Restaurant 


restaurant_id 
day 

open 

close 


name 
fromID 
tolD 
toString 





图 20-3: 基础 的 数据 库 模 式 
这 种 做 法 有 个 优点 ， 开 发 人 员 和 数据 加 载 人 员 可 以 随时 给 数据 增加 
新 的 关系 。 一 般 来 说 ， 它 把 数据 表示 成 图 ， 而 不 是 一 组 表 。 图 20-4 显 示 
了 以 图 形 表示 的 和 餐馆， 以 及 人 们 日 后 可 以 很 容易 增加 的 额外 数据 。 
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Scorpion Bowl 
图 20-4: 餐馆 数据 的 “图 形 数据 库 ， 可 扩展 
遗憾 的 是 ， 关 系数 据 库 不 是 为 了 以 这 种 方式 来 存储 数据 而 设计 的 ， 
而 在 该 模式 上 做 任何 有 用 的 查询 将 需要 很 多 自 连 接 操作 ， 因 此 会 变 得 非 

















由 于 这 是 一 个 非常 通用 的 模式 ， 因 此 最 近 几 年 出 现 了 很 多 商业 的 和 
开源 的 “图 形 数据 库 ?， 专 门 为 了 存储 这 种 数据 而 设计 。 以 下 是 一 些 例 
T: 

Sesame(http: //openrdf. org) 

一 个 开源 的 图 形 数据 库 ， 由 荷兰 的 一 家 软件 公司 Aduna 维 护 。 

Jena(http: //jena. sourceforge.net) 

另 一 个 开源 的 图 形 数据 库 ， 由 Hewlett Packard 开 发 。 

AllegroGraph(http: //agraph. franz.com) 

它 是 一 个 特征 更 丰富 的 商业 图 形 数据 库 ， 由 Franz 开 发 。 


Neo4J(http: //neo4j. org) 

它 是 一 个 有 商业 授权 的 开源 图 形 数据 库 。 

虽然 它们 代表 了 在 数据 建 模 和 开发 实践 上 的 转型 ， 当 从 多 个 数据 源 
中 连接 数据 时 ， 图 形 数据 库 变 得 更 加 灵活 。 由 于 这 个 原因 ， 这 两 种 数据 
库 最 近 获 得 了 很 多 关注 ， 因 为 人 们 开始 考虑 “复杂 度 扩展 ”以 及 规模 扩 
展 。 遗 憾 的 是 ， 这 个 属于 我 们 连接 数据 时 面临 的 最 简单 的 问题 一 一 已 经 
变 得 越 来 越 糟糕 。 

共享 名 词 和 共享 动词 

假定 你 有 一 个 非常 优雅 的 图 形 或 者 一 个 完全 合适 的 关系 模式 来 合并 
两 个 数据 库 ， 你 如 何 知 道 哪些 数据 项 真 的 相互 匹配 ? 比如 可 口 可 乐 公 
司 ， 一 个 数据 库 可 能 是 “Coca-Cola”， 而 另 一 个 是 “The Coca-Cola 
Company”， 或 者 更 简单 的 “Coke”( 但 是 这 些 都 和 “The Coca-Cola 
Bottling Company” 没 有 关系 ， 它 是 独立 区 分 开 的 ) 。 

更 糟糕 的 是 ， 人 们 在 命名 各 个 字段 或 者 对 象 属性 时 ， 几 乎 没有 任何 
一 致 性 可 言 。 在 一 个 数据 库 中 ， 一 个 餐馆 地 址 可 能 通过 address 字 段 表 
示 ， 而 另 一 个 数据 库 可 能 通过 location 字 段 表示 。 我 们 如 何 识别 一 个 数 
据 库 的 location 字 段 在 作为 餐馆 的 一 个 属性 时 ， 表 示 的 是 地 址 ， 但 是 当 
location 用 于 描述 基因 序列 时 ， 表 示 的 是 在 染色 体 中 的 位 置 。 在 实践 
中 ， 这 通常 是 一 个 人 工 识别 过 程 ， 但 是 如 果 我 们 期 望 构 建 一 个 系统 ， 可 
以 很 容易 整合 成 干 上 万 的 数据 ， 我 们 需要 找到 一 些 方式 来 消除 整合 过 程 
中 需要 涉及 的 人 工 操 作 。 

















人 们 已 经 党 试 了 很 多 种 办 法 来 解决 这 些 命名 问题 。 在 语义 Web 社 区 
产生 了 “链接 开源 数据 *"， 人 们 鼓励 其 他 人 通过 标准 的 通用 资源 标识 符 
(UT) 来 表示 特定 的 对 象 ( 如 一 部 电影 、 一 个 人 或 者 一 个 餐馆 ) ， 因 此 当 
两 个 人 探讨 相同 的 事物 时 ， 所 有 人 都 可 以 理解 。 人 们 已 经 为 一 组 本 体 
(otologies) 进 行 标准 化 ， 这 些 本 体 描述 了 应 该 使 用 哪些 字段 来 描述 在 所 
有 情况 下 的 餐馆 或 电影 这 类 事物 。 

然而 ， 到 目前 为 止 ， 同 意 使 用 相同 的 URI 来 表示 事物 以 及 采用 相同 
的 本 体 论 来 描述 事物 的 组 织 在 所 有 的 免费 数据 库 中 只 占 了 非常 小 的 比 
例 ， 而 且 几 乎 没有 覆盖 任何 公司 的 私有 数据 库 。 在 很 多 情况 下 ， 即 使 那 
些 试 着 参与 链接 的 开源 数据 ， 当 前 也 并 没有 使 用 相同 的 URI 来 表示 显然 
是 相同 的 事物 。 这 意味 着 ， 对 于 像 我 们 这 样 试 着 连接 数据 集 ， 我 们 将 需 
要 设计 自动 确定 两 种 事物 相同 的 方式 。 

同一 事物 的 不 同名 字 

和 很 多 人 一 样 ， 当 我 第 一 次 试 着 连接 数据 集 时 ， 我 想到 了 一 个 不 错 
的 一 级 假设 ， 确 定 两 个 事物 相同 的 最 佳 方式 是 它们 有 相同 的 名 字 。 我 其 
至 认为 通过 使 用 字符 串 距 离 和 子 串 匹配 就 能 够 很 有 技巧 地 解决 像 *Coca- 
cola” 和 “The coca-cola company” 这 样 的 问题 。 这 在 很 多 情况 下 适用 ， 但 
是 在 最 有 意思 的 情况 下 通常 失败 了 一 一 而 且 是 你 最 感 兴趣 的 那些 情况 。 

我 在 试 着 结合 维基 百科 的 电影 数据 和 Netflix 网 站 的 电影 数据 时 遇 上 
的 一 个 简单 的 例子 是 《Prét-a-Porter》。 维 基 百 科 用 该 名 字 来 描述 这 部 电 
影 (虽然 实际 上 它 是 一 部 美国 电影 ，》， 但 是 在 Netflix 上 ， 则 是 用 英文 名 




















= (Ready to Wear》 来 描述 。 在 你 认为 我 们 应 该 先 把 名 字 翻 译 成 英语 ， 
再 进行 字符 串 比 较 时 ， 首 先 应 该 注意 的 一 点 是 存在 很 多 电影 ， 同 一 个 语 
言 有 多 个 名 称 ， 如 《B.U.S.T.E.D.》 和 《Everybody Loves Sunshine) , 
这 些 电影 或 者 是 在 不 
同 国家 有 不 同 的 名 字 或 者 包含 和 发 布 标题 不 同 的 工作 标题 。 

因此 ， 如 果 我 们 不 依赖 于 搜索 相似 的 字符 串 ， 我 们 如 何 匹 配 电影 ? 
原则 很 简单 ， 而 细节 却 非 常 困难 《是 很 多 个 人 和 学 术 研 究 的 主题 ) 。 举 
个 例子 ， 我 们 有 两 部 电影 ， 都 是 在 1994 年 发 布 的 ， 都 是 由 Robert Altman 
S Julia Roberts 和 Sophia Lauren 主 演 : 它们 有 可 能 会 是 不 同 的 电影 
吗 ? 正如 实际 情况 所 示 ， 只 有 一 部 电影 满足 这 些 特征 ， 因 此 包含 这 些 属 
性 的 任何 电影 一 一 不 考虑 它 的 名 字 一 一 一 定 是 相同 的 电影 。 在 本 章 后 面 
我 将 探讨 在 实践 中 是 如 何 发 现 这 一 点 。 

顺便 说 一 下 ， 字 符 串 距离 匹配 很 不 适合 电影 匹配 。《Ghostbusters》 
和 《Ghostbusters 2》 是 非常 相似 的 字符 串 ， 但 是 它们 是 两 部 不 同 的 电 
影 ， 你 可 以 很 容易 发 现 一 部 在 1984 年 上 映 而 男 一 部 在 1989 年 上 映 。 甚 至 
无 法 假定 电影 标题 后 面 的 数字 表示 的 是 一 系列 电影 
of George II》 和 《The Madness of King George》 实 际 上 指 的 是 同一 部 电 
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同一 名 字 的 不 同事 物 
没有 意识 到 两 种 事物 实际 上 相同 通常 会 造成 很 多 及 烦 ， 生 成 一 些 副 
本 ， 必 要 的 话 可 以 在 事后 解决 。 更 严重 的 后 果 是 由 于 两 个 不 同事 物 有 相 











或 者 《Point of No Return》 和 《The Assassin) 


























《The Madness 




















同 的 名 字 或 者 一 些 其 他 不 足以 确定 “ 吴 份 ”的 属性 而 导致 不 正确 地 确定 它 
们 是 相同 的 事物 。 这 种 方式 更 危险 的 原因 是 一 旦 数据 库 中 的 事物 不 正确 
地 合并 在 一 起 ， 在 不 需要 太 多 人 工 介 入 的 情况 下 ， 我 们 就 没有 很 简单 的 
方式 来 解决 所 这 些 问题 。 

在 威斯康星 州 〈 美 国 ) 有 7 个 城镇 名 字 叫 “富兰克林 其 中 只 有 一 个 
城镇 有 沃尔玛 。 人 至 少 有 四 本 书 的 名 字 为 《City of God》。 至 少 有 50 个 名 
HU “John Smith” 的 人 有 足够 的 知名 度 出 现在 维基 百科 上 。 抛 开 考虑 错误 
的 改行 黑 名 单 ， 即 使 两 个 事物 具有 相同 的 名 字 ， 很 显然 也 不 足以 证 明 它 
们 是 相同 的 ， 尤 其 对 于 人 们 的 名 字 而 言 。 虽 然 对 于 人 来 说 ， 存 在 唯一 关 
键 字 ， 如 在 美国 是 社会 保险 号 码 ， 但 是 这 些 信息 几乎 从 来 不 会 出 现在 公 
众 可 访问 的 数据 库 上 ; 对 人 的 唯一 识别 符 通常 需 要 茶 种 程度 的 保护 。 

除了 在 非常 封闭 的 集合 《比如 国家 名 字 ) 或 者 是 非 第 罕见 的 名 池 
(我 想到 了 “Toby Segaran”) ， 强 烈 建议 不 要 仅仅 基于 名 字 来 合并 事 
物 ， 应 该 使 用 额外 的 信息 来 设计 算法 ， 以 便 确 定 两 条 不 同 的 记录 确实 是 
同一 个 事物 。 

我 觉得 必须 指出 已 经 付出 很 多 努力 来 为 条 些 特定 事物 创建 经 典 的 标 
识 符 ,但 是 这 些 标 识 符 由 于 隐私 问题 从 未 被 成 功 地 应 用 于 人 。 在 美国 ， 
我 们 有 社会 保险 号 码 ， 很 多 政府 部 门 和 信誉 机 构 用 它 来 奶 踩 我们 ， 但 是 
人 们 告诉 我 们 不 应 该 把 这 些 信息 和 别人 分 译 ， 因 此 我 们 当然 不 会 把 它 放 
到 公共 数据 库 中 以 防 别 人 可 以 更 容易 地 把 他 们 的 数据 和 我 们 的 数据 链接 
起 来 。 因 此 ， 我 们 永远 都 处 于 几 十 亿 的 人 们 有 相似 的 名 字 而 没有 办 法 识 





















































别 出 他 们 。 


可 能 的 解决 方案 


在 通常 情况 下 ， 能 够 意识 到 这 是 一 个 悬 而 未 解 的 问题 很 重要 ， 人 们 
尝试 了 一 些 在 某 些 特定 情况 下 可 以 工作 的 想法 。 这 些 方法 ， 有 的 是 
个 “死胡同 ”， 但 是 有 的 当 继 续 发 展 时 ， 看 起 来 像 是 可 以 在 广泛 的 数据 集 
LAF 

匹配 多 个 字段 

在 第 7 章 中 ，Jeff Jonas 描 述 了 一 个 假设 的 场景 ， 可 以 通过 结合 名 字 和 
地 址 ， 发 现 某 个 员工 是 个 小 偷 。 在 那 种 情况 下 ， 名 字 和 地 址 的 组 合 足以 
表明 两 种 不 同 的 记录 实际 上 表示 同一 个 人 。Jeff 可 以 很 快 地 指出 他 遇 到 
这 样 的 情况 ， 一 个 “Patrick Smith” 和 男 一 个 “Patricia Smith” 有 相同 的 地 
址 ， 而 且 都 包含 “Pat Smith”， 因 此 如 果 你 不 注意 ， 很 容易 陷入 其 他 很 明 
显 的 规则 的 迷宫 中 。 

这 说 明了 在 数据 集中 匹配 数据 项 时 可 用 的 最 基本 常见 的 方式 选择 
一 组 参数 ， 创 建 一 组 固定 的 规则 来 告诉 你 事物 间 是 否 匹 配 。 举 个 例 
Te “两 个 人 是 否 有 相同 的 名 字 和 地 址 ? ”或 者 “两 部 电影 是 否 有 相同 的 
名 字 并 且 是 在 同一 年 发 布 的 ? ” 

这 种 方法 在 很 多 情况 下 都 适用 ， 但 是 它 存在 一 些 缺 点 。 首 先 ， 它 需 
要 开发 人 员 识 别 字段 和 匹配 规则 。 这 种 方式 可 能 会 非常 乏味 ， 因 为 当 他 
们 发 现 根 据 基 本 的 名 字 / 发 布 年 份 规则 ，《Prat-i-Porter》 和 《Ready to 
Wear》 不 匹配 时 ， 他 们 需要 发 明 另 一 种 规则 ， 如 “两 部 电影 在 同一 年 发 



































布 ， 导 演 相 同 ， 而 且 至 少 有 一 个 演员 相同 。” 

为 一 个 问题 是 它 需 要 这 些 字 段 本 里 具有 很 蜗 的 一 至 性。 如果 我 们 没 
有 演员 的 全 名 怎么 办 呢 ? 如 果 在 其 中 一 个 数据 库 丢 失 了 茶 些 电影 的 年 份 
信息 ， 那 又 该 如 何 处 理 ? 最 后 ， 因 为 我 们 是 选择 特定 的 字段 ， 然 后 生成 
平面 记录 ， 这 种 方式 并 没有 充分 利用 全 部 网 络 的 数据 一 一 全 网 数据 潜在 
地 可 能 为 我 们 提供 更 多 关于 身份 的 信息 。 

















集体 调解 


我 相信 充分 利用 全 网 数据 是 解决 匹配 问题 的 关键 。 这 种 思想 体现 在 
称 为 “集体 调解 *(cllective reconciliation) Ek «8 ffs Sz 44 ve iX" (cllective entity 
resolution)。 有 关 这 方面 的 详细 讨论 ， 我 建议 阅读 Indrajit Bhattacharya 的 
博士 论文 ， 你 可 以 在 http: //www.lib.umd.edu/drum/handle/1903/42413k HX 
该 论文 ; 

在 本 节 中 ， 我 将 从 高 层次 介绍 集体 调解 的 涵义 。 这 些 算法 的 实现 细 
节 根 据 你 所 处 理 的 特定 类 型 的 数据 会 有 很 大 区 别 ， 而 且 超出 了 本 章 的 讨 
论 范围 ， 但 是 我 希望 一 个 高 层次 的 概要 会 帮助 你 去 试验 以 及 使 你 阅读 别 
人 在 该 主题 上 所 做 的 工作 会 更 容易 。 

首先 ， 考 虑 如 下 情况 ， 我 们 有 两 个 电影 数据 集 ， 两 个 数据 集 包 含 的 
言 轧 略 有 不 同 。 从 这 两 个 数据 集 抽 取 两 份 数据 片段 并 进行 图 形 化 表示 ， 
如 图 20-5 所 示 。 我 们 已 经 确定 仅仅 基于 名 字 进 行 匹配 是 不 明智 的 ， 因 此 
我 们 无 法 仅仅 通过 名 字 来 确定 两 个 对 象 是 一 样 的 。 但 是 ， 我 们 相信 图 A 
中 的 节点 node10 和 图 B 中 的 节点 node22 可 能 是 一 样 的 ， 因 为 它们 的 名 字 
都 是 “Julia Roberts”， 图 A 中 的 节点 node12 和 图 B 中 的 节点 node27 可 能 是 
一 致 的 ， 因 为 它们 都 是 命名 为 Ready to Wear". 

技巧 在 于 我 们 在 两 个 图 中 的 数据 项 有 潜在 的 匹配 ， 而 且 这 些 数据 项 
相互 间 有 一 定 的 连接 一 一 潜在 匹配 的 “Julia Roberts” 节 点 和 潜在 匹配 
的 “Ready to Wear" 之 间 有 连接 。 这 条 连接 为 这 二 者 的 匹配 提供 了 更 多 的 











证 据 。 这 种 匹配 关系 是 否 是 最 终结 论 取决 于 很 多 可 能 性 假设 ， 如 有 多 个 
名 叫 Julia Roberts 的 女 主角 在 名 为 《Ready to Wear》 的 电影 中 ， 但 是 在 
该 案例 情况 下 ， 我 们 可 以 认为 这 些 关 联 匹 配 是 正确 的 。 

这 些 关 联 的 实现 方式 有 很 多 区 别 ， 但 是 主流 技术 称 为 “消息 传 
2” (mssage-passing). iH, AIA AY xinodel2XDÉ'C nT BEA ABP BN 
节点 node27 一 样 ， 查 看 图 B 中 的 所 有 连接 ， 它 给 图 A 中 的 邻居 节点 发 送 
了 消息 。 连 接 所 有 演员 的 消息 可 能 是 “你 可 能 和 节点 node22 或 节点 
node25 一 样 ?。 而 节点 nodel0 接 收 到 这 条 消息 后 ， 意 识 到 “实际 上 ， 我 已 
经 认为 我 可 能 和 节点 node22 一 样 ?>。 同 理 ， 节 点 node10 告 诉 节点 node12 

可 能 的 所 有 电影 。 图 20-6 显 示 了 可 能 的 过 程 。 

你 很 可 能 明白 了 为 什么 这 被 称 为 “集体 调解 >， 而 不 是 拼合 记录 ， 我 
们 实际 上 是 想 要 一 次 性 把 所 有 东西 都 归并 起 来 ， 而 且 节 点 之 间 可 以 互相 
提供 信息 是 否 需要 归并 。 当 然 ， 这 只 是 一 个 很 小 的 例子 ， 但 是 考虑 一 下 
图 20-7 所 示 的 更 复杂 的 一 项 。 





























Graph A 
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Graph B 
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actor 
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node22 
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图 20-5: 两 个 不 同 的 电影 数据 集 的 数据 片段 
在 该 图 中 ， 名 字 为 “Ready to Wear” 的 节点 并 不 匹配 ， 而 且 我 们 甚至 
没有 一 个 节点 命名 为 node10! 我 们 如 何 知 道 它 是 Julia Roberts? 但 是 ， 我 











们 已 经 稍微 扩展 了 网 络 范围 ， 包 含 一 些 其 他 Julia Roberts 为 明星 的 电 
$^. SAIN Ee, “消息 传递 ?机 制 可 以 通过 很 多 迭 代 来 完成 。 可 能 你 明白 


了 “消息 传递 "算法 的 作用 ? 以 下 是 基本 的 思想 : 
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图 20-6: 节点 间 的 消息 传递 
1. 节 点 node11 决 定 它 和 节点 node23 有 可 能 匹配 ， 因 为 它们 的 名 字 相 
同 ; 
2. 相 似 地 ， 节 点 node15 认 为 它 和 节点 node9 有 可 能 匹配 (如 果 我 们 有 
更 多 关于 Julia Roberts 的 电影 数据 ， 就 可 以 继续 更 多 这 样 的 推出 了 ) ; 
3.73 Finodel1 2% f —2&1H Z8 HrinodelO0: “你 可 能 和 节点 node22 





或 者 节点 node24 兄 配 ?”; 





AZRW, TTrinodelS AX f —AI S240 nodel0: “你 可 能 和 节点 
node22 或 节点 node25 匹 配 ”; 

5. 节 点 node10 在 收 到 了 所 有 这 些 消息 后 ， 下 定 结论 认为 很 可 能 是 节点 
node22， 因 为 那 是 它 所 共有 的 消息 ; 

6. 注 意 ， 节 点 node10 已 经 确定 了 自己 所 匹配 的 节点 ， 因 而 可 以 发 送 一 
条 消息 到 所 有 它 所 连接 的 节点 (包括 它 收 到 消 奶 的 节点 ) ， 给 出 消 恩 它 
所 认为 的 它们 可 能 和 哪些 节点 相 匹 配 ; 

7. 节 点 node12 收 到 了 节点 node10 和 节点 node19 的 消息 :“ 你 可 能 和 节 
点 node23 匹 配 ?， 因 此 它 最 后 选择 和 节点 node23 匹 配 。 

虽然 只 有 一 个 演员 名 字 相 同 ， 但 是 我 们 已 经 确定 《Prat-i-Porter》 和 
《Ready to Wear》 是 同一 部 电影 。 











Bj 20-7: 一 个 更 复杂 的 归并 问题 
注意 我 们 是 如 何 利 用 全 网 的 事实 来 确定 最 终 的 匹配 ? 这 就 是 集体 调 
解 的 精髓 ， 以 及 它 如 此 强大 的 原因 。 这 一 观点 可 以 继续 扩展 : 在 某 些 实 
验 中 ， 我 发 现 你 可 以 仅仅 使 用 电影 的 发 布 年份 来 连接 两 个 电影 和 演员 的 
数据 集 。 茶 个 明星 在 特定 12 个 年 份 出 演 的 电影 ， 以 及 和 在 8 个 特定 年 份 
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4. 

当然 ， 其 中 的 实现 和 数学 细节 可 能 非常 复杂 ， 但 那些 不 在 本 章 的 讨 
论 范 围 之 内 。 实 现 这 种 技术 的 可 定制 性 版 本 束 留 个 读者 作为 非常 有 普 的 
练习 了 。 





结论 





到 目前 为 止 ， 多 数 人 都 意识 到 几乎 每 个 领域 都 越 来 越 依赖 于 数据 分 
析 的 进步 。 虽 然 科学 主要 是 依赖 于 从 很 少 的 观 峙 中 构建 的 理论 ， 未 来 看 
起 来 似乎 需要 收集 和 挖掘 好 几 百 万 个 衡量 尺度 ， 虽然 零 售 业 公 司 主要 依 
赖 于 “趋势 观察 者 ”提供 的 洞察 力 ， 但 是 现在 很 多 人 相信 他 们 应 该 销售 的 
东西 已 经 淹没 在 大 量 收集 的 数据 中 了 。 

不 是 花费 更 大 代价 独立 构建 更 大 的 数据 集 ， 我 相信 未 来 在 于 利用 别 
人 生成 的 大 量 数据 ， 把 它 和 我 们 自己 生成 的 数据 进行 结合 和 混合 。 不 论 
这 些 数据 是 人 否 来 自我 们 目 己 的 企业 内 部 、 非 营利 结构 或 者 公共 领域 ， 都 
可 以 通过 重用 和 连接 数据 来 节省 很 多 开 文 。 和 希望 本 章 能 够 月 发 你 找到 更 
好 的 方法 来 实现 这 些 。 
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Models) 【剑桥 大 学 出 版 社 ) . (Red State,Blue State,Rich State,Poor 


State:Why Americans Vote the Way They Do) 《普林斯顿 大 学 出 版 社 ) 





和 《A Quantitative Tour of the Social Sciences) 【剑桥 大 学 出 版 社 ) 。 

Yair Ghitza 是 哥伦比亚 大 学 的 政治 学 专业 博士 生 ， 致 力 于 研究 美国 政 
治学 和 量化 方法 。 他 之 前 在 政治 分 析 公 司 工 作 ， 包 括 Catalist 公 司 和 
Copernicus Analytics r] . 

Rajarshi Guha 是 NIH 化 学 基因 组 中 心 的 科学 家 ， 研 究 高 吞吐 量 屏蔽 问 
题 的 各 个 方面 。 在 这 之 前 ， 他 是 Indiana University 信 息 学 院 的 访问 学 
者 。 在 过 去 几 年 ， 他 研究 了 化 学 信息 学 和 计算 药物 发 现 ， 范 围 从 QSAR 
建 模 和 算法 开发 到 工具 箱 的 软件 工程 和 部 署 化 学 信息 方法 和 模型 的 Web 
服务 基础 设施 。 

Alon Halevy 他 领导 一 个 结构 化 数据 管理 研究 组 。 在 这 之 前 ， 他 是 西 
雅 图 华盛顿 大 学 计算 机 专业 的 教授 。 在 1999 年 ，Halevy 博 士 是 Nimble 
Technology 公 司 的 创始 人 之 一 ， 该 公司 是 第 一 个 在 企业 信息 集成 空间 领 
域 的 公司 ; 在 2004 年 ， 他 成 立 了 Transformic 公 司 ， 为 Deep Web 发 明 搜索 
引擎 ， 该 公司 后 被 G 公 司 收 购 。Halevy 博 士 是 Computing Machinery 组 织 
的 会 员 ， 在 2000 年 获得 为 科学 家 和 工程 师 颁 发 的 Presidential Early Career 
Award(PECASE); ‘téSloan@ i (1999~2000) 。 他 发 表 了 150 多 篇 技 
术 论 文 。 他 于 1993 年 在 斯 坦 福 大 学 获得 了 计算 机 专业 的 博士 学 位 。 

Jeff Hammerbacher 是 Cloudera 公 司 的 产品 副 总 裁 和 首席 科学 家 。 在 加 

















入 Cloudera 之 前 ，Jeff 是 Accel Partners 公 司 的 一 个 企业 家 。 在 加 入 Accel 


之 前 ， 他 在 Facebook 构 思 、 创 建 和 领导 了 数据 组 。 在 Facebook， 数 据 组 
是 负责 驱动 很 多 统计 和 机 器 学 习 应 用 ， 以 及 构建 为 大 数据 集 文 持 这 些 任 
务 的 基础 平台 。 该 数据 组 发 表 了 一 些 学 术 论 文 和 两 个 开源 项 目 : Hive 是 
在 Hadoop 上 构建 的 离线 分 析 系 统 ; Cassandra 是 在 P2P 网 络 上 的 结构 化 存 
储 系统 。 在 加 入 Facebook 前 ，Jeff 是 华尔街 的 定量 分 析 师 。Jeff 在 哈佛 大 
学 获得 数学 专业 的 学 士 学 位 。 

Jeffrey Heer 是 斯 坦 福 大 学 计算 机 专业 的 助理 教授 ， 他 主要 研究 人 机 
交互 、 交 互 可 视 化 和 社会 计算 。 他 的 工作 成 果 包 含 探索 数据 的 创新 性 可 
视 化 技术 ， 简 化 可 视 化 创建 和 定制 软件 工具 以 及 为 最 大 化 利用 多 个 分 析 
员 的 洞察 力 的 协作 分 析 系 统 。 他 是 开源 可 视 化 工具 箱 prefuse 和 flare 的 作 
者 ， 这 两 个 工具 当前 被 可 视 化 研究 组 织 和 很 多 公司 采用 。 在 过 去 几 年 
里 ， 他 也 曾 就 职 于 Xerox PARC, IBM Research. Microsoft Research 和 
Tableau Software。 他 在 加 州 大 学 伯克利 分 校 获得 计算 机 专业 的 学 士 、 硕 
士 和 博士 学 位 。 

Matthew Holm 是 波斯 顿 的 Hot Knife Design 公 司 的 咨询 创造 主管 ， 工 
作 主 要 涉及 公司 的 战略 、HTML/CSS 的 开发 以 及 CMS 驱 动 的 Web 站 点 。 
Matt 当 前 是 Oregon 的 人 机 交互 论坛 的 副 总 裁 (te Oregon chapter of the 





























Association of Computing Machinery's Special Interest Group on Computer- 
Human Interaction,CHIFOO)。 除 了 在 线 网 络 领 域 的 工作 ，Matt 还 是 专业 
的 儿童 书籍 作者 和 解说 员 。 他 的 作品 图 片 小 说 《Babymouse》 (Rndom 
House 出 版 社 ) 备 受 赞誉 且 获 得 奖项 ， 目 前 已 经 印刷 超过 100 万 册 。 








J. M.Hughes 是 一 位 嵌入 式 系统 和 软件 工程 师 ， 对 实时 控制 、 数 据 采 
集 和 图 像 处 理 特别 感 兴趣 。 从 2003 一 2007 年 ， 他 负责 设计 、 实 现 和 测试 
火星 着 陆 器 凤凰 号 的 表面 成 像 软件 。 他 当前 致力 于 多 波长 的 激光 干扰 仪 
系统 的 电子 和 控制 软件 ， 该 系统 可 以 为 NASA 项 目 验证 望远镜 镜片 分 
He EMEF, KIL EEE ERRAR Tucson. 

Jeff Jonas 是 IBM 首 席 科学 家 、IBM 实 体 分 析 组 (IM Entity Analytics 
Group) 和 杰出 工程 师 。IBM 实 体 分 析 组 是 基于 系统 研究 和 开发 的 技术 成 
立 的 ， 由 Jonas 在 1984 年 创办 ，2005 年 被 IBM 收 购 。Jonas 的 博客 是 
http: //jeffjonas.typepad.com. 

Jonathan P. Kastellec 是 普林斯顿 大 学 的 政治 学 教授 。 他 在 《Journal of 





Law) . Economics & Organization) . Journal of Empirical Legal 


Studies) #1 (Perspective on Politics》 发 表 过 论文 。 





Valdean Klump 目 前 居住 在 旧 人 金山， 是 一 名 作家 ， 在 一 家 创意 实验 室 
BI (ae 

Aaron Koblin 是 一 名 来 自 旧 金山 的 艺术 家 ， 他 的 可 视 化 数据 项 目 
Flight Patterns, The Sheep Market 和 Ten Thousand Cents 都 广为人知 。 他 
是 视频 “House of Cards” 的 技术 主任 ， 当 前 是 一 家 创意 实验 室 的 设计 技术 
市 领 人 。 

Coco Krumme 是 MIT Media Lab 的 研究 生 。 她 同时 也 为 在 旧金山 的 
Metaweb Technologies 公 司 工 作 。 

Andrew Lang 是 Oral Roberts 大 学 的 数学 教授 。 他 的 博士 研究 领域 是 弯 











曲 时 空 的 量子 理论 。 在 该 领域 他 还 很 活跃 ， 同 时 他 也 喜欢 参与 跨 项 目的 
协作 工作 ， 范 围 从 篮球 自由 投篮 建 模 到 在 冲击 力 下 的 旋转 宇宙 飞船 的 稳 
定性 。 他 当前 的 研究 兴趣 包含 多 维 数 据 可 视 化 、 科 学 和 科幻 小 说 的 关 
系 、 技 术 和 形而上学 自然 主义 在 认识 论 上 的 区 别 。 

Pierre Lindenbaum 2000 年 获得 病毒 学 的 博士 学 位 ， 当 时 他 研究 
Virushost 交 互 。 后 来 他 转行 研究 生物 信息 学 ， 在 French National Center of 
Genotyping 工 作 一 年 后 ， 他 在 2001 年 加 入 了 French startup Integragen。 他 
现在 作为 生物 信息 学 家 ， 在 巴黎 的 遗传 研究 中 心 Fondation Jean Dausset- 
CEPH 工 作 。 

Jayant Madhavan 是 一 名 资深 软件 工程 师 ， 是 Deep Web/fE BI A it kl 
的 技术 带领 人 。 在 这 之 前 ， 他 是 Tranformic 公 司 〈2005 年 被 G 公 司 收 
JW» 的 首席 架构 师 ，Tranformic 公 司 为 Deep Web 发 明了 搜索 引擎 。 
Madhavan 博 士 2005 年 在 华盛顿 大 学 获得 计算 机 专业 博士 学 位 。 

Michal Migurski 是 Stamen Design 公 司 的 合伙 人 ， 同 时 是 该 公司 的 技 
术 和 研究 方面 的 带领 人 。 他 从 1995 年 开始 就 一 直 构 建 Web， 专 于 处 理 大 
规模 的 、 振 奋 人 心 的 数据 集 ， 以 及 这 些 数 据 和 大 量 的 客户 端的 用 户 进行 
通信 和 分 发 的 方式 。 他 公开 为 学 术 和 工业 领域 做 一 些 主题 讲座 ， 积 极 参 
加 各 种 开源 开发 项 目 ， 积 极 维护 Web 博 客 : http: //mike.teczno.com。 他 
在 加 州 大 学 伯克利 分 校 获 得 学 位 。 

Cameron Neylon 是 在 跨 领域 工作 的 生物 物理 学 家 ， 著 名 的 开源 研究 
实践 和 改进 的 数据 管理 的 倡导 者 。 他 当前 作为 生物 分 子 科 学 的 资深 科学 











家 ， 在 Science and Technology Facilities Council(STFC)MJISIS Neutron 
Scattering facility 工 作 。 在 学 术 研 究 上 ， 他 经 党 在 科学 Web 技 术 和 成 功 的 
《和 不 成 功 的 ) 通用 和 设 定 设计 工具 的 应 用 方面 发 表 论 文 或 进行 演讲 。 

Peter Norvig 他 是 AAAI 和 ACM 的 会 员 ， 合 著 了 《Artificial 





Intelligence:A Modern Approach) (Pentice Hall 出 版 社 ) 一 书 ， 这 是 在 人 
工 智能 领域 的 一 流 的 教材 。 在 这 之 前 ， 他 是 NASA 计 算 机 科学 的 负责 
人 、USC 和 Berkeley 的 教师 。 

Brendan O'Connor 是 机 器 学 习 和 自然 语言 处 理 的 研究 员 。 他 是 
Dolores 实 验 室 的 科学 顾问 ， 先 前 作为 相关 性 技术 工程 师 在 Powerset 公 司 
工作 。 他 从 斯 坦 福 大 学 获得 符号 系统 学 的 学 士 和 硕士 学 位 ， 目 前 回 到 学 
术 领 域 ， 作 为 研究 生 去 卡 内 基 梅 隆 大 学 就 读 。 他 的 博客 名 为 “Artificial 
Intelligence and Social Science”， 可 以 访问 : http: //anyall.org/blog. 

David Poole 在 AT&T 实 验 室 的 统计 研究 部 门 工 作 ， 目 前 是 美国 统计 
协会 (Aerican Statistical Associatiom) 的 统计 计算 部 门 秘书 和 财务 主任 。 他 
在 大 规模 的 数据 挖掘 方面 很 有 经 验 ， 如 通信 工程 的 客户 呼叫 数据 分 析 和 
欺诈 识别 。 

Raghu Ramakrishnan 是 雅虎 Audience and Cloud Computing 的 首席 科学 
家 ， 是 一 名 研究 员 。 他 在 数据 库 系统 的 工作 一 一 主要 研究 数据 挖掘 、 碍 
询 分 析 和 Web 规 模 的 数据 管理 一 一 影响 了 商业 数据 库 系统 的 查询 优化 和 
SQL: 1999 的 窗口 函数 的 设计 。 他 的 Birch 聚 类 算法 论文 ， 获 得 了 
SIGMOD 10-Year Test-of-Time 奖 ， 他 还 著 有 被 广泛 采用 的 教材 


























(Database Management Systems) (Johannes Gehrke; McGraw- 
Hil 出 版 社 ) 。 他 是 ACM SIGMOD 的 主席 ，ACM 和 IEEE 的 成 员 。 

Toby Segaran 是 O'Reilly 的 两 本 很 受 欢 迎 的 书 : 《Programming 
Collective Intelligence》 和 最 近 出 版 的 《Programming the Semantic Web》 
的 作者 。 他 当前 在 Metaweb 工 作 ， 在 那里 他 开发 了 大 规模 的 协调 算法 ， 
目的 是 为 所 有 其 他 公共 数据 库 创 建 包含 共享 关键 字 的 免费 数据 库 。 在 加 
入 Metaweb 之 前 ， 他 成 立 了 生物 技术 软件 公司 ，2003 年 被 Genstruct 收 
购 ，Genstruct 是 系统 生物 公司 。Toby 在 MIT 获 得 了 计算 机 学 士 学 位 ， 现 
在 和 妻子 Brooke 一 起 居住 在 旧金山 。 在 他 的 博客 上 你 可 以 读 到 更 多 关于 
他 的 文章 和 数据 实验 : http: //blog.kiwitobes.com. 

Lisa Sokol 当 前 是 IBM 全 球 商 务 服务 组 的 顾问 ， 专 门 做 实体 分 析 。 她 
的 主要 研究 领域 是 帮助 执法 人 和 情报 组 织 发 现 深 埋 在 大 数据 集中 的 “可 
采取 措施 的 信息 ”(Ationable Information)。 她 架构 了 大 量 的 系统 来 检测 评 
佑 相对 于 欺诈 、 芍 怖 主义 、 反 间谍 和 犯罪 活动 的 威胁 风险 。 她 还 帮助 开 
拓 了 一 些 技术 的 应 用 ， 如 数据 挖掘 、 文 本 挖掘 和 机 器 翻译 ， 用 来 探索 共 
享 情 报 环境 中 的 可 访问 信息 。Sokol 博 士 在 这 些 领域 发 表 了 无 数 篇 论 
文 。 她 在 Massachusetts 大 学 获得 操作 研究 的 博士 学 位 。 

Utkarsh Srivastava 是 雅虎 研究 院 的 资深 研究 科学 家 。 他 的 主要 研究 领 
域 是 构建 系统 来 解决 大 规模 数据 管理 系统 。 在 开发 PNUTS 之 前 ， 他 在 开 
发 Pig 项 目 中 发 挥 了 重要 作用 ，Pig 是 在 Hadoop 之 上 的 描述 查询 语言 。 他 
在 斯 坦 福 大 学 获得 了 博士 学 位 ， 在 那里 他 的 研究 工作 是 流 数据 的 查询 处 




















理 和 一 些 查 询 优化 问题 。 

Deborah Swayne 在 AT&T 实 验 室 的 统计 研究 部 门 工 作 ， 是 美国 统计 
协会 的 成 员 ， 统 计 图 形 学 的 ASA 部 门 的 前 主席 。 她 是 已 经 被 广泛 使 用 的 
多 维 数 据 可 视 化 软件 ggobi 的 作者 之 一 。 

Jud Valeski 是 Gnip 公 司 的 CTO 和 创始 人 之 一 。Gnip 公 司 致力 于 开发 数 
据 便携 式 软件 。 从 客户 端 用 户 接触 的 产品 到 大 规模 后 台 基 础 设施 项 目 ， 
Jud 工 作 了 20 多 年 ， 并 乐 在 其 中 。 他 在 IBM、Netscape、onebox.com、 
AOL 和 me.dium 加 入 过 工程 师 、 产 品 和 M&A 团队 。 在 发 布 的 由 几 干 万 的 
用 户 使 用 的 产品 中 ，Jud 发 挥 了 重要 的 作用 。 

Hadley Wickham 是 Rice 大 学 的 助理 教授 ， 研 究 兴 趣 是 开发 工具 〈 包 
括 计 算 和 认 知 两 个 方面 ) 使 得 数据 准备 、 可 视 化 和 分 析 变 得 简单 。 他 开 
发 了 15 个 统计 工具 R 的 工具 包 ， 在 2006 年 ， 由 于 在 ggplot 软 件 上 的 工作 
以 及 重 塑 了 统计 工具 R 的 工具 包 ，Hadley 获 得 了 统计 计算 的 John 
Chambers Award。 














Antony Williams 是 ChemZoo 公 司 的 总 裁 ， 提 供 ChemSpider 服 务 ， 为 
化 学 家 提供 在 线 免费 访问 服务 ， 目 的 是 为 科学 家 构建 以 结构 为 中 心 的 组 
织 。 他 在 商业 科学 软件 领域 的 Advanced Chemistry 
Development(ACDV/Labs) 当 了 10 多 年 的 首席 科学 官 ， 任 期 中 监督 产品 开 
发 、 市 场 和 销售 团队 。 他 是 个 成 就 很 高 的 NMR 光 谱 学 家 ， 发 表 了 100 多 
篇 论文 。 他 曾经 是 Eastman Kodak Company 的 NMR 技 术 带 头 人 ， 在 学 术 
领域 和 政府 研究 所 都 工作 过 。 他 最 近 热 衷 于 提供 ChemSpider 服 务 ， 为 大 














众 提供 化 学 相关 的 信息 和 软件 服务 。 

Egon Willighagen 是 瑞典 Uppsala 大 学 的 科学 家 ， 主 要 研究 制药 生命 科 
学 领域 的 数据 分 析 。 他 主要 研究 设计 统计 方法 的 开发 和 生物 分 子 化 学 计 
量 学 和 蛋白质 化 学 计量 学 。 他 是 Chemistry Development Kit 和 Metware 的 
发 布 主管 ， 在 其 他 化 学 信息 学 开源 项 目 工作 了 10 多 年 ， 其 中 两 个 项 目 是 
Jmol 和 Bioclipse。 





Jo Wood 是 伦敦 城市 大 学 giCentre(http: //gicentre.org) 地 理 信息 学 的 读 
者 。 他 从 1990 年 就 一 直 致 力 于 山水 地 貌 的 分 析 ， 在 GIS 上 发 表 了 
《LandSerf》， 用 于 进行 表面 视觉 探索 。 作 为 地 理学 家 和 程序 员 ， 他 在 
过 去 几乎 10 年 的 时 间 中 一 直 在 用 Java 开 发 软件 为 数据 分 析 问 题 找 到 地 理 
可 视 化 的 解决 方案 。 他 的 著作 有 《Java Programming for Spatial 
Sciences》(CC)。 当 不 用 计算 机 分 析 地 形 地 有 舟 时 ， 他 经 和 营 骑 车 兜 风 。 

Matt Wood 是 wellcome Trust Sanger Institute 的 产品 软件 的 负责 人 ， 在 
那里 他 负责 驱动 该 研究 所 的 世界 级 的 序列 设备 的 软件 。 

Nathan Yau 是 加 州 大 学 洛杉矶 分 校 的 统计 学 博士 生 ， 在 加 州 大 学 介 
克利 分 校 获得 了 电子 工程 和 计算 科学 的 学 士 学 位 。 他 的 主要 研究 兴趣 包 
括 数 据 可 视 化 、 自 我 监督 以 及 数据 本 映 和 物理 世界 如 何 纠 织 在 一 起 。 深 
ZAH (New York Times》 的 图 形 编辑 实习 生 工 作 的 局 发 ，Yau 维 护 了 
一 个 领先 的 统计 学 和 数据 可 视 化 博客 : 

FlowingData(http: //flowingdata.com/) 。 该 博客 主要 涉及 设计 家 、 统 计 
学 家 和 计算 机 科学 家 如 何 使 用 数据 帮助 我 们 做 出 更 好 的 决策 。 























ATE 1 (1-1) | 我 们 在 地 图 上 对 不 同 的 视觉 提示 进行 实验 ， 通 

过 影响 和 排放 值 来 最 佳 展示 地 理 数 据 。 以 上 展示 了 我 们 初始 设计 的 三 次 
和 迭代 。 最 左边 的 地 图 显示 根据 夏 影 响 所 呈现 的 彩色 GPS 轨迹 ; 对 于 中 间 
的 地 图 ， 我 们 通过 单 色 的 圆圈 面 (aea circle) 来 表示 影响 ; 对 于 右边 的 地 
图 ， 我 们 结合 了 GPS 数据 来 呈现 用 户 什么 时 候 有 空 ， 然 后 重新 采用 单 色 
的 颜色 编码 方案 





彩 图 2 (图 1-2) 在 当前 的 映射 机 制 中 ， pt 十 滤器 来 
离 亮 显 示 数 据 。 地 图 仅仅 是 提供 上 下 文 信息 。 链 接 的 直方 图 显示 映射 后 


的 数据 的 影响 和 排放 值 分 布 。 当 用 户 通过 滚动 条 看 直方 图 的 某 一 栏 ， 相 
应 的 GPS 数据 会 在 地 图 上 高 亮 显 示 


Y Personal Environmental Impact Report 
How l interact with the environment... 


GPS data from a Nokia mobile phone is used to derive the following results. 


Impact 

Rank 2 of 4 friends 

Me NENNEN 48.4 
Friends dim 
Exposure 

Rank 1 of 4 friends 

Me NENNEN 143 
"i 20.18 





Current as of: 06/24/2008 12:27:18 
A CENS project powered by Nokia 


#A 3 (图 1-4) PEIR 的 Facebook 应 用 允许 用 户 分 享 他 们 对 影响 
和 排放 值 的 发 现 ， 以 及 与 朋友 的 进行 比较 
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BA 4 (图 1-5) 人 们 为 不 同 原因 跟踪 他 们 的 体重 和 饮食 。YFD 把 这 


些 动机 作为 用 户 界 面 的 焦点 
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为 了 易 读 性 ， ——————— P A ae 
标题 以 
Wa NE -~ a 
字体 显示 ro w— 
xil pisos 
Arial 143 
字体 显示 Do 
也 把 文本 空白 总 是 受 人 欢迎 ， 
LET 读 的 分 块 它 使 页 面 看 起 来 亮 堂 ， 
不 会 让 人 感到 压抑 


彩 图 5 (图 2-2) ”为 易 读 性 而 设计 
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#A 6 (图 2-3) 调查 开始 只 有 3 个 问题 
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BA 7 (图 2-4) 基于 用 户 输入 ， 调 查 可 能 会 扩展 到 6 个 问题 


5. How interested would you ba te purchase Pis ed of procesi? 
Weel you sey that your 


3 Whic of tye png em ci emporast te pou" 
(Check ig D ) moore 


V Tha pros of the orosuct 

Ü tme pronvers eure yore 

V The cusi of fe crateracanip 

Ü Tha oc that # ca^ be costarmigae ts my teste 


彩 图 8 (图 2-5) ， 调查 细节 一 一 当 用 户 对 问题 1 回答 "Yes" 时 


1. How intesested would you ba te purchase Dis ed of proces? 
Woa you say that you: 


2. Why are you not interested in the product? 


彩 图 9 (图 2-6) 调查 细节 一 一 当 用 户 对 问题 1 回答 “No” 时 





#A 10 (图 3-1) 凤凰 号 火星 探测 器 在 火星 上 的 着 陆 效果 图 (图 像 来 
JR: 美国 航空 航天 局 和 喷气 推进 实验 室 NASA/JPD) 
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AE 11 (图 3-2) 立体 表面 成 像 器 〈 图 像 来 源 : Arizona X 
&: /NASA/JPL) 


Y 





彩 图 12 (图 6-1) Aberuchil 附 近 的 小 路 。 远 处 是 Bioran 
Dalchonzie。 这 是 Geograph 项 目的 网 站 出 现 的 第 100 万 张 图 片 
(htp: //www.geograph.org.uk/photo/1006884) 。 图 片 版 权 归 DYr.Richard 
Murray 所 有 ， 由 Creative Commons 


License(http: //creativecommons.org/licenses/by-sa/2.0/) 授权 使 用 





彩 图 13 ( 862) Norfolk # 84 45,38 2 RHA o 每 个 图 片 都 是 根 
据 其 地 理 位 置 进行 映射 ， 表 示 了 1 平方 公里 的 景观 。 图 片 由 Creative 
Commons License(http: //creativecommons.org/licenses/by-sa/2.0) 授权 使 
用 





彩 图 14 (图 6-4) 对 于 六 种 选 定 的 场景 类 型 ， 其 出 现在 地 理 标题 
和 评论 的 描述 的 树 形 图 。 节 点 大 小 表示 术语 的 出 现 频 率 。 顾 色 突 出 了 包 
含 一 种 继承 随机 方案 的 场景 类 型 / 刻 面 (fcet)/ 描 述 符 分 类 。 布 局 采用 “有 
序 的 方块 化 ”方法 来 维持 节点 之 间 的 方块 形状 
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彩 图 15 (图 6-5) 对 于 六 种 选 定 的 场 RK, 其 出 现在 地 理 标题 
和 评论 的 描述 的 树 形 图 。 节 点 大 小 表示 术语 出 现 频率 。 颜 色 突 出 了 包含 
一 种 继承 的 随机 方案 的 场景 类 型 / 刻 面 /描述 符 。 布 局 采用 “切片 和 
切 块 ”的 方法 来 增强 维度 (LE) 间 的 比较 和 “切片 和 切 块 / 有 序 的 方 
块 化 ”方法 来 改进 标注 的 可 读 性 ， 如 下 部 的 图 





彩 图 16 (图 6-6) “APM ARC MBA, HME RM 
CIELab 顾 色 模 型 的 一 种 色彩 空间 来 显示 绝对 的 地 理 位 置 ， 在 该 空间 中 ， 
主观 感觉 到 的 颜色 区 别 和 地 理 位 置 的 差异 紧密 相关 





彩 图 18 (图 6-8) ”对 于 六 种 选 定 的 场景 类 型 ， 其 出 现在 地 理 标 题 
和 评论 的 描述 的 空间 树 形 图 。 节 点 大 小 表示 词 频 ， 颜 色 表 示 使 用 CIELab 
方案 的 绝对 空间 地 理 位 置 。 位 移 向 量 表示 非 叶子 节点 的 绝对 地 理 位 置 如 
场景 类 型 、 刻 面 和 描述 符 





gø 17 (图 6-7) “有 序 的 方块 化 ” 树 形 图 ， 通 过 CIELab 色 彩 空 
间 的 颜色 显示 绝对 的 地 理 位 置 。 包 含 描述 符 节 点 的 叶子 节点 ， 使 用 空间 
有 序 算法 ， 通 过 地 理 位 置 做 关联 排序 





彩 图 19 (图 6-9) 对 于 六 种 选 定 的 场景 类 型 ， 其 出 现在 地 理 标 题 

和 评论 的 词汇 的 空间 树 形 图 。 位 移 向 量 表示 非 叶 子 节 点 的 绝对 地 理 位 置 

( 共 现 词 ) ， 并 提供 了 关于 位 移 的 空间 聚 类 和 空间 趋势 的 信息 来 满足 树 
形 图 的 空间 填充 目标 
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彩 图 20 (图 6-10) 在 beach 基 础 区 块 中 出 现 的 对 选 定 元 素 的 描述 
符 在 地 理 标 题 和 评论 中 出 现 的 术语 的 空间 树 形 图 。 位 置 向 量 表 示 图 6-9 
中 放大 部 分 的 叶子 节点 的 绝对 地 理 位 置 





彩 图 21 (图 9-1) Borders 商 店 定 位 表单 和 提交 特定 表单 得 到 的 Deep 


Web 结 果 页 





彩 图 22 (图 10-1) 来自“ 飞行 模式 ”的 静态 图 片 (2005) 





彩 图 23 (图 10-3) 派对 场景 的 一 张 静 态 图 片 ， 通 过 Velodyne 的 
Lidar 拍 摄 。 注 意 该 图 片上 方 的 分 辨 率 更 高 ， 这 是 由 于 在 上 斜 岸 的 激光 的 
触发 速率 更 快 





高 频 光 源 


高 频 成 像 元 素 
彩 图 24 (图 10-4) Geometric Informatics A 2% (图 像 来 源 : Geometric 


Informatics 公 司 ) 





彩 图 25 (10-5) Velodyne Lidar 的 一 个 激光 器 捕捉 到 的 数据 





彩 图 26 (图 10-6) Velodyne Lidat 捕 捉 到 的 另 一 幅 景观 图 片 





彩 图 27 (图 10-7) 派对 场景 的 一 个 静态 图 片 ，Velodyne ”Lidar 捕 
提 ， 数 据 有 64 条 线 ， 每 条 线 由 Lidar 的 一 个 激光 器 生成 





彩 图 28 (图 10-8) 歌手 Thom Yorke 在 Radiohead 视 频 中 的 一 张 静 态 图 
A 
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THE 29 (图 11-2) 
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彩 图 30 (图 11-3) CrimeWatch 相 同 的 样本 数据 ， 突 出 显示 了 程序 可 
识别 的 图 标 
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彩 图 31 (图 11-5) 奥克兰 商业 区 地 图 ， 为 三 角 测量 所 显示 的 三 个 参 


Re 1 点 
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彩 图 32 (图 11-6) 奥克兰 Crimespotting 项 目的 主页 显示 了 从 上 周 开始 
的 犯罪 报告 地 图 





彩 图 33 (图 11-7) Crimespotting 的 主 地 图 上 的 时 间 选 择 器 界面 





34 (Hj11-8) “类 型 选择 器 显示 了 在 选 定 时 间 范 围 内 
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ABE 35 (11-10) ”巡警 区 专用 页 面 允 许 居 民 为 在 当地 巡逻 的 警官 提 
供 反馈 





彩 图 36 (图 12-3) “使 用 Tableau 工 具 构建 的 显示 几 十 年 间 婚 姻 状 态 分 
布 的 原型 系统 可 视 化 
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4H 37 (H124) 工作 向 导 可 视 化 : 左 图 显示 在 过 去 150 年 间 劳 
动力 组 成 概要 视图 ， 右 图 显示 过 滤 后 农民 工 的 比例 的 视图 





彩 图 38 (图 12-5) 出 生地 向 导 可 视 化 : 左 图 显示 在 过 去 150 年 间 
出 生地 的 分 布 概要 ， 右 图 显示 过 滤 后 欧洲 移民 的 总 数 的 视图 
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4E 39 (图 12-6) (ARB) RAAB RIA BRA) 2000 ~ 
2005 年 的 人 口 变 化 ， (48) 美国 散 点 图 显示 了 平均 家 庭 收 入 (x 轴 ) 
PREI (yh), 高 的 零售 额 
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4H 40 (图 12-7) 人 口 金字 塔 可 视 化 : (AB) 2000 年 的 每 个 年 
淮 组 的 男性 和 女性 的 总 人 口 数量 的 比较 ，( 右 图 ) 2000 年 学 校 出 席 人 数 
的 分 布 ( 标 注重 点 突出 了 成 人 教育 的 流行 率 ) 


[dem m i- pen tent 
[mw woe p £e pe y 





$- 5 QD cere ———À9À DLL 
serse.us / jobs ee aten -一 
Ragected Ot pations of US Labor Foo, 1850: 2099 (bosa Mo Apana cog) ca D uen Cameo ee AB LO 
wem dei maon rtt 
>> matay eat am women s ol Work Fn > 人 
1 ww Fw saoe 
人 一 
` , 
vA ee 
j \ -A 
"d i ` 
t 
j ' 
| acc 
I 
' — 
$ - 
beas P Aesi tanji woe ag 
—— 
e lh S. OOA m— orm eee cue F; 





| Ree eerie m antes mde fey a j 
6 


彩 图 41 (612-8) ”sense.us 协 作 式 可 视 化 系统 : a) 交互 式 可 视 化 
应 用 小 程序 ， 图 形 化 标注 出 当前 选 定 的 评论 。 该 可 视 化 是 按照 性 别 划 分 
的 美国 劳动 力 人 数 的 又 加 式 时 间 序 列 可 视 化 。 该 图 显示 了 军事 职位 的 劳 
动力 比率 ; b) 一 组 图 形 化 标注 工具 ; c) 保存 的 视图 书签 索引 ; d) 添 
加 评论 的 文本 入 口 区域 。 可 以 拖 动 书签 到 文本 区 域 ， 为 评论 中 的 视图 增 
加 链接 ; e) 在 当前 视图 添加 相同 主题 的 评论 ; f) 该 应 用 当前 状态 对 应 
的 URL。 该 URL 随 着 可 视 化 状态 变化 自动 更 新 


o> + om pe ——— 
+> GaN oea | 
Bà) shift after 1950 ^ 


é The bipper! movement of women inte te lator foro ageeed Debeeen 1320 and LAGO Prom this view, £ agoeans thet 
Geren avs secretary pins undenvent seyvicart greet 
P by Fechas Rogers o^ 1827 20. 2008 Lii 6v 





— tag shift after 1950 
M you look at Matki worker, yay mee Se oppose beret 
P by Delta Perrandes c^ Pr 2d 21. 2008 1952 A 
Wi shilt after 1050 


| 

| 

| 

3 Avo n Và e meh A from te col to svi colar mor. | 


P os Pred Mein on Wad Aug 2.200€ 1000 Ale 


The bed time 
arand 1972, a bad coors or. Many companies were coard Thats shy non io madtors at thet moment 
P ty U Trang o^ Wer Aug È DE RE AM. 

The bad time 


1 ovd egret vt tar. 
P by Frad Wain on Wind Aug È 2006 190 Ave 


1s this military info right? 

J wed have expected a differen patterns for the mátary, buf en agam maybe e jus! fr mbi y nistma copies 
qnos and youre 

Py Marie Sharp on Pr de 21. 2008 poas AMi 





Is this military info right? 
here we übel where | woud Pure expected Dg jump. | 
P by Martio Sharp e^ Fa dd 22. 2208 1924 AM 








彩 图 42 (图 12-9) ”sense.us 评 论 列 表 页 面 ， 评 论 列 表 显 示 可 视 化 的 所 
有 评论 ， 提 供 链 到 评论 的 可 视 化 视图 的 链接 
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#A 43 (图 12-10) 股票 经 纪 人 的 标注 视图 ; AR XE “KH 
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44 (12-11) 人 口 金字 塔 显示 在 1940 年 ( 左 图 ) 和 2000 年 (4 
A) 每 个 年 龄 组 的 婚姻 状态 分 布 


X 


- a 





Che ———— 
TA t MÀ nsa cm am sm onm m 


彩 图 45 (图 12-12) 人 口 金 字 塔 比较 了 在 1850 年 yx #21940 
GE EJ) 西海 岸 和 大 西洋 中 部 地 区 的 人 口 


^^t! EL E iai i 





#A 46 (图 12-13) 标注 的 工作 向 导 视 图 (AB) 突出 显示 了 


1930 年 后 牙医 人 数 的 减少 ，( 右 图 ) 由 于 牙医 人 员 排 序 的 上 升 ， 牙 医 从 
业 人 数 得 到 增长 





AE 47 (图 13-2) ”我们 可 以 构建 模型 来 区 分 两 组 数据 集 
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彩 图 48 (813-3) 三 只 股票 (a、b 和 c) 在 2005 年 的 业绩 
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彩 图 50 (图 13-6) ”Goldstein 等 开发 的 工具 帮助 人 们 理解 作为 一 组 结 
果 的 分 布 





彩 图 51 (815-1) ” DNA 中 的 一 个 小 片段 ， 由 POV-Ray 软 件 从 PDB 文 


件 1BNA 生 成 ，doi: 10.2210/pdb1bna/pdb 


增强 子 启动 子 #A 
A 52 (15-2) ”图 示 为 一 个 DNA 片 段 ， 其 中 包含 一 个 基因 ， 
以 及 基因 周围 用 来 和 细胞 调控 机 制 相互 作用 来 限制 基因 表达 的 区 域 。 这 
里 基因 由 一 个 启动 子 和 一 个 增强 子 引 导 ， 这 样 基 因 就 被 做 了 标记 ， 使 得 
细胞 知道 何 时 应 当 表 达 该 基因 
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#A 53 (图 16-1) 使 用 免费 通用 服务 来 托管 实验 工作 记录 及 处 理 
过 的 数据 。A) 单个 实验 测量 时 期 的 一 部 分 ; B) Flickr 上 实验 中 所 拍照 
KH; C) 托管 在 Gdoc 上 主要 数据 仓库 的 一 部 分 
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彩 图 54 (图 16-2) 用 于 检视 溶解 度数 据 的 可 视 化 工具 。A) 采用 
JavaScript 和 G 公 司 Doc API 生 成 的 一 个 简单 表单 输入 界面 ; B) 溶解 度数 
值 的 图 形 化 表示 ; C) 带 有 二 维 化 学 结构 泻 汪 图 的 数据 表格 输出 。 可 以 
从 http: //toposome.chemistry.drexel.edu/ ~reuha/jcsol/sol.html 访 问 此 服 
务 。 请 注意 : 本 服务 与 这 里 提 到 的 其 他 服务 都 是 动态 的 ， 可 能 得 到 与 上 
图 所 示 不 同 的 查询 结果 
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彩 图 55 (E163) ”这 是 ChemSpider 条 目 显示 溶解 度数 据 与 原始 数据 
链接 的 例子 
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A 56 (E165) 化 学 空间 溶解 度数 据 的 图 表 展 示 。A 和 B 给 出 
了 同一 数据 组 在 表示 不 同化 学 特性 的 数 轴 上 的 两 个 可 视 化 图 表 。 点 的 闫 
色 表 示 化 合 物 的 类 型 (红色 的 为 醛 类 ， 蓝 色 为 法 酸 类 ， 黄 色 的 为 胺 类 ， 
黑色 表示 其 他 ) ， 点 的 大 小 表示 溶解 度 的 值 。C 显 示 了 可 点 击 的 界面 ， 
其 中 有 单个 数据 点 的 化 合 物 结构 和 溶解 度 值 








彩 图 57 (图 16-6) 使 用 Second Life 展 示 多 维 数据 。 三 个 空间 轴 分 
别 表示 三 个 化 学 描述 符 。 球 的 颜色 表示 化 合 物 的 类 别 (和 图 16-5 的 定义 
一 样 ) ， 球 的 大 小 表示 在 当前 溶剂 中 的 溶解 度 。 此 可 视 化 图 表 可 以 在 
http: //slutl.com/secondlife/Drexel/165/178/244%3], BpSecond Life 中 的 
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彩 图 58 (图 17-1) ”FaceStat 的 评判 界面 
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彩 图 59 (图 17-5) ”魅力 和 年 龄 关系 的 散 点 图 ， 通 过 性 别 进行 着 色 
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A EJ 60 (8176) ”魅力 和 年 龄 关系 的 平滑 散 点 图 ， 每 个 性 别 一 个 图 
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AE 61 (图 17-7) ” 魅力 和 年 龄 关系 的 平滑 散 点 图 ， 通 过 性 别 着 色 ， 
在 一 张 图 上 交 县 显示 
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#A 62 (图 17-8) ”魅力 和 年 龄 以 及 性 别 的 关系 的 三 种 迭代 绘图 : 





a) 平均 值 在 桶 内 区 间 的 每 个 年 龄 ; b) 每 个 桶 95% 置 信 区 间 ， 以 及 局 部 
加 权 回 归 曲 线 ; c) RAMA, HYP MEE RH 


* RERI: 我 的 农 租 尺 寸 是 多 少 ? 

+ 安全 : 如 果 你 是 一 名 机 场 安检 这 千 ， 你 会 检查 我 吗 ? 
* HE: FARR? 

* 改造 ; 我 是 否 需要 改造 ? 

+ 发 型 ， 你 喜欢 我 的 发 型 四? 

+ 年 龄 : 我 多 大 了 ? 

+ 体重: 我 有 多 重 ? 

* 政治 面 校 ， 我 的 政治 面 软 是 什么 ) 《 越 高 越 保守 ) 
+ 整形 乎 术 ， 我 是 否 做 过 整形 平 术 ? 

， 性 倾向 :我 的 性 倾 身 是 什么 ? 【 值 越 高 越 有 可 能 是 同性 态 ) 
+B: 我 有 多 大 魅力 ? 

+ BA: 我 有 多 富有 ? 

* DREN: 我 是 否 〈 或 者 将 来 是 否 会 ) 显得 年 轻 ? 
+ 有 才华 : 我 是 否 有 才华 ? 

+ BR: 我 有 多 聪明 ? 

* 值得 信任 ， 我 值得 信任 的 程度 有 多 高 ? 

， 和 狗 打架 : 你 党 得 我 是 否 能 打 过 一 只 中 等 大 小 的 狗 ? 
+ RR. FERREIS 

+ MR, RASH? 





彩 图 63 (图 17-9) Pearson ž* RH, K 6,7; He 83 BEM Fe Et 
$74 XE GE 8] XE, 8 2r 6, Zi He 8 BEM TF R5 f AL ZE IER X 





彩 图 64 (图 17-12) “基于 平滑 后 的 魅力 与 年 龄 描绘 的 标签 样本 图 
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£B 65 (图 17-13) 
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魅力 和 年 龄 的 关系 ， 通 过 集群 着 色 ， 
2000 个 点 的 子 样本 
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彩 图 66 (817-15) 
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彩 图 67 (17-16) 


最 经 典 的 标签 
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集群 的 质心 点 、 标 签 和 例子 
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集群 的 质心 点 、 标 签 和 例子 
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彩 图 68 (418-13) (上 图 ) 对 于 数据 中 的 每 个 住宅 销售 都 画 出 
点 ， 它 给 我 们 非常 好 的 旧金山 布局 的 感觉 (FA) 为 了 比 
较 ， 显 示 的 是 一 张 旧 金山 的 街道 地 图 ， 来 自 http: //openstreetmap.com 


了 一 不 让 二 





彩 图 69 (图 19-5) ”宾夕法尼亚 州 的 地 理 党 派 。 基 础 层 显 示 了 根据 
2004 年 总 统 竞 选 公布 的 数据 对 宾夕法尼亚 州 进行 的 分 块 着 色 显示 ， 蓝 色 
表示 对 民主 党 候选 人 John Kerry 的 支持 度 更 高 ， 红 色 表 示 对 共和 党 候选 
AGeorge W.Bush 的 支持 度 更 高 ， 而 紫色 分 区 表示 介 于 这 二 者 之 间 。 分 
散 的 柱 面 图 表示 对 于 该 州 4000 个 随机 注册 的 投票 人 的 本 地 党 派 ， 定 义 为 
居住 在 1 公里 范围 内 支持 民主 党 的 人 们 的 概率 。 每 个 圆柱 面 都 是 基于 在 
投票 人 的 住宅 为 中 心 ，1 公 里 范围 内 为 界限 ， 因 此 复制 该 党 派 衡量 方式 
的 区 域 。 蓝 色 圆 柱 面 表示 更 支持 民主 党 能 P ÉI 
注册 一 一 红色 圆柱 面 表示 更 支持 共和 党 的 地 区 ， 而 紫色 表示 介 于 二 者 之 
间 的 区 域 。 该 图 之 美 在 于 它 显示 了 在 国家 级 别 、 州 级 别 ， 甚 至 是 县 级 
别 ， 红 区 和 蓝 区 的 思想 观念 的 复杂 性 











AH 70 (图 20-1) 证 券 交 易 委 员 会 的 数据 和 责任 政治 中 心 提供 的 政 
治 贡 献 相 关 的 数据 的 饼 图 


